Introduction to Reinforcement Learning

기계학습 (제일 큰 원)

머신러닝 패러다임과 강화학습이 뭐가 다른지

  1. Supervisor가 없고, Rewards 만이 신호로 존재한다.
  2. 피드백(reward) 이 즉각적이지 않다 ( 늦어질 수 있다 ).
    1. 시간 차이로 인한?
  3. 시간이 너무 중요하다. iid - 각 샘플이 독립적이지 않다. ( Sequential )
  4. 에이전트의 액션이 차후의 받게되는 데이터에 영향을 준다.
    1. 어떤 데이터를 어떻게 받는지도 학습과정에서 매우 중요하다.

Example

  1. 백가몬 boardgame에서 world champion을 이기는일
  2. 투자 포트폴리오를 관리. ( earnings maximize )
  3. make humanoid robot walk…

Rewards