value 또는 action-value function을 params $\theta$를 통해 구헀다.
Policy는 value-function을 따라서 생성됬다 e.g) e-greedy
policy를 parametrise한다.