Generalised Policy Iteration With MC Evaluation
- Policy evaluation MC policy evaluation, V = v_pi?
- Greedy improvement
- V를 따라간다는건 greedy하게 다음 state의 v값중에 제일 v값이 큰 곳으로 가는 policy를 만듬
- 다음 state를 안다는것은 MDP를 안다는 것. mDP를 모르면 다음 state가 뭐가 될지 가보지 않고서는 모른다,
- 다음 state를 모르니까 greedy policy를 만들 수 없다.
Model-Free Policy Iteration Using Action-Value Function
- 모델을 알아야 V(s)에 대한 Greedy policy를 improvement가 가능하다.
- Q(s, a)가 model-free면 greedy policy improvement가 가능할까?
- Action중에 q값이 높은 것을 선택하는 것을 policy로 하면 되기 때문에 가능하다.
Generalised Policy Iteration with Action-Value Function
- policy evaluation Monte-Carlo policy evaluation : Q = q_pi
- Policy Improvement : Exploration이 많이 되지 않았기 때문에 충분히 많이 가지못한다.
e-Greedy Exploration
- 작은 확률로 랜덤하게 다른 액션을 선택하고
- 1-e확률로 가장 좋은 액션을 선택한다.
- 모든 액션을 exploration함을 보장할 수 있다.
- policy가 계속 발전함을 보장 할 수 있다.
e-Greedy Policy Improvement
- Theorem : For any e-greedy policy pi , e-greedy policy pi q_pi에 관련된, 은
$v_\pi'(s) \geq v_\pi(s)$