Value functions = 가치함수

policy를 따라갈때 poilcy가 좋을지 안좋을지 평가해주는 지표

state의 가치를 평가해주는 함수

(total discounted reward)의 기댓값

Law of total probability : 전체 확률의 법칙

Law of large numbers : 큰수의 법칙