
벨만 방정식(Bellman Equation)
·
Artificial Intelligence/Basic
해당 포스팅을 보기 전에 MDP 포스팅을 보길 권장한다.벨만 방정식은 주어진 정책 $\pi$ 의 벨류를 구하기 위해서 사용되며 현재 시점($t$)와 다음 시점($t+1$) 사이의 재귀적 관계를 이용해 정의된다. 이 방정식에는 '기대' 방정식과, '최적' 방정식 두 가지가 존재하므로 둘 모두를 설명한다. 1. 벨만 기대 방정식벨만 기대 방정식은 아래와 같이 나타낼 수 있다.$$ \begin{flalign} v_{\pi} &= \mathbb{E}_{\pi}[r_{t+1} + \gamma v_{\pi}(s_{t+1}) \\ \\ &= \mathbb{E}_{\pi}[G_{t}] \\ &= \mathbb{E}_{\pi}[r_{t+1} + \gamma r_{t+2} + \gamma^{2} r_{t+3} + \cdo..