03 | Markov Decision Process | Notion

Markov Property

과거 상태에 영향을 받지 않고 현재 상태로만 미래 상태의 확률을 구할 수 있다.

Markov Process

markov property를 만족시키는 (S,A)의 tupel

Markov Decision Process

MDP is tuple (S, A, P, R, $\gamma$)의 모든 state는 Markov property를 가진다.

S: state space
A: action space
P: transition probability from s to s’ given a $P(s'|s,a) = \frac{P(s,a,s')}{P(s,a)} = P(S_{t+1} = s' | S_t=s, A_t=a)$
R: reward function
- 3가지 가능한 리워드
- $R_s, R_s^a, R_{ss'}^a$
$\gamma \in[0,1]$ : discount factor
Model-based : Known MDP ( tranision probability ) 를 알고있다
- Dynamic Programming
Model-free : unknown MDP
- Sample data를 기반으로 Policy를 업데이트하는 방식
- Reinforcement learning
$\pi_*$은 보상의 합의 기댓값을 최대화 하는것이 목적이다