Model-Free Prediction
Environment를 모를때 Model-Free Prediction을 풀거고 MC , TD로 풀 수 있다.
Unknown MDP에 대해서 Value Function을 찾는다.
Monte-Carlo Reinforcement Learning
- Monte-Carlo : 직접 구하기 어려운 것을 사건을 실행하면서 실제값들을 통해 추정하는 것.
- MC : 경험으로부터 직접 배운다.
- MC는 episode가 끝나는 것으로부터 배운다. cum sum
- cum sum의 mean을 value로 가진다.
- MDPs 가 항상 끝나야지만 MC를 적용 가능하다
Monte-Carlo Policy Evaluation ( Prediction )
- Goal : learn $v_\pi$ from eqisodes under policy $\pi$
- Return : discounted reward로 부터의 토탈
- Value Function : return의 기댓값
- Monte-Carlo policy는 empirical mean을 사용한다. ( 실제 시도해서 평균 )
First-Visit MC Policy Evaluation
- State마다 갯수가 있는데 방문할때마다 카운터를 늘려주고
- 게임이 끝날때 얻을 리턴을 그 스테이트에 저장