• Deterministic : 동일한 state와 action이 있다면 항상 같은 output이 나오게 된다.

    • Policy가 정해지면 One Episodes
  • Stochastic : 동일한 state와 action이 있어도 다른 output이 나올 수 있다.

    • Policy가 정해지면 Many Episodes
  • Markov property ( Memoryless property )

    • Stochastic과 random process는 time set에 의한 indexed된 집합이다.

      • 이산 확률 과정
        • 과거의 State : $S_0, S_1, ... S_{t-1}$
        • 현재의 State : $S_t$
        • 미래의 State : $S_{t+1}$
      • 연속 확률 과정 : ${S_t | t \geq 0}$
    • 현재 State $S_t=s$가 주어졌을때 미래 state $S_{t+1} =s'$는 과거의 states들에 의존하지 않는다. 즉, 다음 State를 가지지는 확률은 현재 State만 보고 결정하겠다.

      마르코프 속성은 수학적으로 다음과 같이 표현됩니다.

      $P(S_{t+1} = s' | S_t = s) = P(S_{t+1} = s' | S_0, S_1, ... S_{t-1}, S_t = s)$ $P_{ij} =P_{s_is_j} = p(s_j|s_i)$

    • Brownian motion은 액체나 기체가 입자속에서 불규칙하게 움직이는 운동 is 유명한 Markov Process이다.

    • 만약 Markov property를 만족하지 않는다면 이전 State들을 모두 기록해야하기 때문에 State Transition Matrix의 값이 계속 바뀌고 복잡해져서 문제가 어렵게 된다.