Introduction to MDPs
- MDP는 rl에서의 환경을 표현한다.
- 환경은 모두 관측 가능해야 한다.
- i.e. 현재 스테이트가 프로세스를 완벽히 표현한다.
Markov Property
- 이전 과거를 다 버릴 수 있다. 스테이트가 모든 관련 정보를 갖고 있어서 history를 버려도 된다.
State Transition Matrix
- 시간 t일때 s에 있다면 t+1일때 s’로 갈 확률
- $P_{11}$은 스테이트가 1에 있을때 다음 스테이트 1로 갈 확률
Markov Process
- 어느 경로를 통해 왔는지 관계없이 현재 위치에서 미래가 정의된다.
- memoryless random process ( sampling ) 가능
- State와 Process들의 집합으로 구성된다.
- State는 state의 유한집함
- Process는 state transition probability matrix의 상태 ( 확률 )
Example: Student Markov Chain Episodes