5강 | Model Free Control | Notion

Generalised Policy Iteration With MC Evaluation

Policy evaluation MC policy evaluation, V = v_pi?
- Greedy improvement
  - V를 따라간다는건 greedy하게 다음 state의 v값중에 제일 v값이 큰 곳으로 가는 policy를 만듬
  - 다음 state를 안다는것은 MDP를 안다는 것. mDP를 모르면 다음 state가 뭐가 될지 가보지 않고서는 모른다,
  - 다음 state를 모르니까 greedy policy를 만들 수 없다.

Model-Free Policy Iteration Using Action-Value Function

모델을 알아야 V(s)에 대한 Greedy policy를 improvement가 가능하다.
Q(s, a)가 model-free면 greedy policy improvement가 가능할까?
- Action중에 q값이 높은 것을 선택하는 것을 policy로 하면 되기 때문에 가능하다.

Generalised Policy Iteration with Action-Value Function

policy evaluation Monte-Carlo policy evaluation : Q = q_pi
Policy Improvement : Exploration이 많이 되지 않았기 때문에 충분히 많이 가지못한다.

e-Greedy Exploration

작은 확률로 랜덤하게 다른 액션을 선택하고
1-e확률로 가장 좋은 액션을 선택한다.
- 모든 액션을 exploration함을 보장할 수 있다.
- policy가 계속 발전함을 보장 할 수 있다.

e-Greedy Policy Improvement

Theorem : For any e-greedy policy pi , e-greedy policy pi q_pi에 관련된, 은 $v_\pi'(s) \geq v_\pi(s)$