Reward Hypothesis
State transition probability
에이전트가 상태-행동 쌍에서 r이 하나가 아니라 여러개의 확률을 가지는 경우를 Dynamic 이라고 한다.
$P_{ss'}(a) = P\{S_{t+1}=s'|S_t=s,A_t=a\} = \Sigma_{r\in \mathbb R}p(s',r|s,a)$
Expected Reward for state-action pair