4강 | Model-Free Prediction | Notion

Model-Free Prediction

Environment를 모를때 Model-Free Prediction을 풀거고 MC , TD로 풀 수 있다.

Unknown MDP에 대해서 Value Function을 찾는다.

Monte-Carlo Reinforcement Learning

Monte-Carlo : 직접 구하기 어려운 것을 사건을 실행하면서 실제값들을 통해 추정하는 것.
MC : 경험으로부터 직접 배운다.
MC는 episode가 끝나는 것으로부터 배운다. cum sum
cum sum의 mean을 value로 가진다.
- MDPs 가 항상 끝나야지만 MC를 적용 가능하다

Monte-Carlo Policy Evaluation ( Prediction )

Goal : learn $v_\pi$ from eqisodes under policy $\pi$
Return : discounted reward로 부터의 토탈
Value Function : return의 기댓값
Monte-Carlo policy는 empirical mean을 사용한다. ( 실제 시도해서 평균 )

First-Visit MC Policy Evaluation

State마다 갯수가 있는데 방문할때마다 카운터를 늘려주고
게임이 끝날때 얻을 리턴을 그 스테이트에 저장