7강 | Policy Gradient | Notion

Policy-Based Reinforcement Learning

value 또는 action-value function을 params $\theta$를 통해 구헀다.
- $V_\theta(s) \approx V^\pi(s)$
- $Q_\theta(s,a) \approx Q^\pi(s,a)$
Policy는 value-function을 따라서 생성됬다 e.g) e-greedy
policy를 parametrise한다.
- $\pi_\theta(s,a) = \mathbb{P}[a |s,\theta]$

Value-Based and Policy-Based RL

Value Based
- Learnt Value Function
- Implicit policy ( e.g. e-greedy)
Policy Based
- No Value Function
- Learnt Policy
Actor-Critic ( Policy - Value Function )
- Learnt Value Function
- Learnt Policy

Advantages of Policy-Based RL

pros
- 수렴성이 좋다.
- 높은 차원이나, 연속성이 있는 액션에 효과적이다.
- stocastic policies에서 학습 가능하다.
cons
- global optimum보다 local optimum에 보통 수렴한다.
- policy를 평가하는것이 보통 비효율적이고, 높은 분산을 가진다.

Example : Rock-Paper-Scissors

가위바위보를 반복할때
- 결정적인 policty는 쉽게 exploit된다.
- uniform random policy는 optimal하다. ( Nash equilibrium )

Policy Objective Functions

Goal : givne policy $\pi_\theta(s,a)$ with params $\theta,$ find best $\theta$