04 | Reward and Policy | Notion

Reward

Reward $R_t$ is 스칼라 피드백 값, 에이전트가 step t에서 한 행동이 얼마나 좋은지 (?)
에이전트가 에피소드 전받에 얻어지는 전체적인 리워드를 최대화하는것이 목적이다.
$G_t$ = Cumulative Sum of reward
- 강화학습은 Reward Hypothesis에 기반한다.

Reward Hypothesis

모든 목표는 $G_t$의 기댓값을 최대화 하는 것으로 설명된다.

State transition probability

에이전트가 상태-행동 쌍에서 r이 하나가 아니라 여러개의 확률을 가지는 경우를 Dynamic 이라고 한다.

$P_{ss'}(a) = P\{S_{t+1}=s'|S_t=s,A_t=a\} = \Sigma_{r\in \mathbb R}p(s',r|s,a)$

Expected Reward for state-action pair

$R_s^a=r(s,a) = \mathbb E[R_{t+1}|S_t=s, A_t=a] = \underset {r\in \mathbb R}\Sigma r \underset {s'\in S}\Sigma p(s',r|s,a)$

Return

Return은 강화학습에서 일반적으로 쓰이는 용어로, 에이전트가 에피소드 시작 시점에서 끝 시점까지 받을 총 리워드 값을 나타낸다. 각 에피소드에서의 리워드의 총합을 Return이라고 한다. 강화학습의 목표는 에이전트가 노력함에 따라 Return의 최댓값을 찾는 것이다.
Discount의 값에 따라 현재값 또는 미래의 값에 가중치를 둘 수 있다.
대부분의 discount factor를 사용한다.
- 수학적으로 안전하고 편리하다. ( 무한값을 가질 수 있다. 발산 )
- 미래의 불확실성 ( 여러 스텝 후의 정보는 불확실하기 때문에 )
- 가까이 있는 리워드가 멀리 있는 리워드보다 더 가치있다.
- 가끔씩 finite하다고 자명하다면 쓰지 않기도한다.