복습 한 번 하고 가자.

Value Function 은 특정 policy 를 따랐을 때 얻을 수 있는 return 의 기대값을 의미한다.
Value Function 을 찾는 것이 강화학습의 목적이라고 할 수 있다.
현재 state 에서 특정 policy 를 따랐을 때 가질 수 있는 return 의 기대값이다.
$$ v_{\pi}(s)=E_\pi[G_t\mid S_t=s] $$
현재 state 에서 특정 policy 를 따르는 상황에서 특정 action 을 취했을 때 가질 수 있는 return 의 기대값이다.
$$ q_{\pi}(s,a)=E_\pi[G_t\mid S_t=s, A_t=a] $$
이를 통해 state-value function 을 재정의할 수 있다.
$$ v_{\pi}(s)=\sum_a\pi(a\mid s)q_\pi(s,a) $$
어떤 state 에서 특정한 action 을 수행했을 때 얻을 수 있는 이득을 나타내는 함수를 Advantage function 이라고 한다.
이는 그 action 을 취했을 때와 취하지 않았을 때의 return 을 비교하는 것이다.
$$ A_\pi(s,a)=q_\pi(s,a)-v_\pi(s) $$
Backup Diagram은 현재 상태에서 미래 보상을 예측하는 과정에서 값이 어떻게 업데이트되는지를 시각적으로 표현한 것이다.
하얀 점은 State, 까만 점은 Action 을 나타낸다. 각 점에서 이루어지는 업데이트 과정은 value function 의 업데이트를 나타낸다.
