과거 상태에 영향을 받지 않고 현재 상태로만 미래 상태의 확률을 구할 수 있다.
markov property를 만족시키는 (S,A)의 tupel
MDP is tuple (S, A, P, R, $\gamma$)의 모든 state는 Markov property를 가진다.
S: state space
A: action space
P: transition probability from s to s’ given a $P(s'|s,a) = \frac{P(s,a,s')}{P(s,a)} = P(S_{t+1} = s' | S_t=s, A_t=a)$
R: reward function
$\gamma \in[0,1]$ : discount factor
Model-based : Known MDP ( tranision probability ) 를 알고있다
Model-free : unknown MDP
$\pi_*$은 보상의 합의 기댓값을 최대화 하는것이 목적이다