벨만 기대 방정식은 와 에 대한 수식이라면 벨만 방정식은 와 에 대한 수식이다. 와 는 모두 정책이 로 고정되었을 때 밸류에 관한 함수였다. 반면, 는 최적벨류 에 대한 함수이다. 최적 벨류에 관한 정의는 아래와 같다.
MDP 안에 존재하는 모든 중에서 가장 좋은 를 (즉 의 값을 가장 높게 하는) 선택하여 계산한 밸류가 곧 최적벨류() 라는 의미이다.
여기서 이런 의문이 들 수 있다. 에서는 의 벨류가 더 높고, 나머지 에서는 의 벨류가 더 높은 경우이다. 이런 상황에서는 의 벨류중 어떤것이 더 높은지 파악하기가 힘들다. 이런 상황에 대해서 의문을 느껴 올바른 최적 를 찾는데에 어려움을 느낄 수 있지만 걱정하지 않아도 된다. 아래와 같은 정리가 증명되어 있기 때문이다.
MDP 내에 모든 에 대해 를 만족하는 가 반드시 존재한다.
위와같이 최적의 정책()가 정의되고 나면 최적 벨류, 최적의 액션 벨류는 다음과 같은 등식이 성립한다.
최적의 정책 :
최적의 벨류 : (를 따랐을 때의 벨류)
최적의 액션 벨류 : (를 따랐을 때의 액션 벨류)
현재까지 최적의 벨류란 무엇인지, 최적 정책이 무엇인지에 대해 설명했다. 이제 벨만 최적 방정식을 설명 해 보겠다.
상태 의 최적 벨류는 에서 선택할 수 있는 액션들 중에서 벨류가 가장 높은 벨류와 같다는 의미이다.
바닥부터 배우는 강화학습 [그림 3-5]
위 그림과 같이 상태 에서 선택할 수 있는 액션이 2개가 존재한다고 하자. 우리는 이미 각 액션을 선택했을 때 얻을 수 있는 최적 벨류를 이미 알고 있는 상황(1, 2)이다.이럴경우 상태 의 최적 벨류는 당연히 가 될 것이다. 이 때 최적벨류인 는 아래와 같이 나타낼 수 있다.
전에 벨만 기대 방정식에서는 앞에 각 액션을 선택할 확률이 곱해졌었는데, 여기서는 당연히 100% 확률로 를 선택하는것이 최적임을 알기에 따로 액션 선택 확률을 곱해주지 않는다.