05 | Bellman Equation

Value functions = 가치함수

policy를 따라갈때 poilcy가 좋을지 안좋을지 평가해주는 지표

state의 가치를 평가해주는 함수

(total discounted reward)의 기댓값

State-value function
- state S에서의 누적합의 기댓값
Action-value function = ( Q function = State Action value )
- State S에서 Action A를 취했을 때 의 기댓값
- policy를 결정할 때 유용 ( 계산량이 많아진다 )
$v_\pi(s) = \sum_a\pi(a|s)q_\pi(s,a)$
Advantage function = $A_\pi(s,a) = q_\pi(s,a) - v_\pi(s)$

⇒ ( > 0 ) = 특정 action이 평균 보다 좋다

⇒ ( < 0) = 특정 action이 평균보다 좋지 않다

Law of total probability : 전체 확률의 법칙

Law of large numbers : 큰수의 법칙