Value functions = 가치함수
policy를 따라갈때 poilcy가 좋을지 안좋을지 평가해주는 지표
state의 가치를 평가해주는 함수
(total discounted reward)의 기댓값
State-value function
Action-value function = ( Q function = State Action value )
$v_\pi(s) = \sum_a\pi(a|s)q_\pi(s,a)$
Advantage function = $A_\pi(s,a) = q_\pi(s,a) - v_\pi(s)$
⇒ ( > 0 ) = 특정 action이 평균 보다 좋다
⇒ ( < 0) = 특정 action이 평균보다 좋지 않다
Law of total probability : 전체 확률의 법칙
Law of large numbers : 큰수의 법칙