Deterministic : 동일한 state와 action이 있다면 항상 같은 output이 나오게 된다.
Stochastic : 동일한 state와 action이 있어도 다른 output이 나올 수 있다.
Markov property ( Memoryless property )
Stochastic과 random process는 time set에 의한 indexed된 집합이다.
현재 State $S_t=s$가 주어졌을때 미래 state $S_{t+1} =s'$는 과거의 states들에 의존하지 않는다. 즉, 다음 State를 가지지는 확률은 현재 State만 보고 결정하겠다.
마르코프 속성은 수학적으로 다음과 같이 표현됩니다.
$P(S_{t+1} = s' | S_t = s) = P(S_{t+1} = s' | S_0, S_1, ... S_{t-1}, S_t = s)$ $P_{ij} =P_{s_is_j} = p(s_j|s_i)$
Brownian motion은 액체나 기체가 입자속에서 불규칙하게 움직이는 운동 is 유명한 Markov Process이다.
만약 Markov property를 만족하지 않는다면 이전 State들을 모두 기록해야하기 때문에 State Transition Matrix의 값이 계속 바뀌고 복잡해져서 문제가 어렵게 된다.