Learn a model from experience
Plan value function from model
value/policy를 통해 experience를 하고
experience를 통해 model learning을 하며
model을 통해 planning ( solve ) 를 해서 다시 value/policy를 수정한다.