Introduction to Reinforcement Learning

기계학습 (제일 큰 원)

Supervised Learning
Unsupervised Learning
Reinforcement Learning
- 지도학습과 다른 방법론이다.

머신러닝 패러다임과 강화학습이 뭐가 다른지

Supervisor가 없고, Rewards 만이 신호로 존재한다.
피드백(reward) 이 즉각적이지 않다 ( 늦어질 수 있다 ).
1. 시간 차이로 인한?
시간이 너무 중요하다. iid - 각 샘플이 독립적이지 않다. ( Sequential )
에이전트의 액션이 차후의 받게되는 데이터에 영향을 준다.
1. 어떤 데이터를 어떻게 받는지도 학습과정에서 매우 중요하다.

Example

백가몬 boardgame에서 world champion을 이기는일
투자 포트폴리오를 관리. ( earnings maximize )
make humanoid robot walk…

Rewards