마르코프 결정 프로세스(이하 MDP)는 의사결정 과정을 모델링하는 수학적인 틀을 제공하며 아래와 같은 요소로 구성된다.
- S : 상태의 집합
- A : 액션의 집합
- P : 전이 확률 행렬 (상태
에서 으로 갈 확률을 행렬의 형태로 표현한 것) - R : 보상 함수
: 감쇠인자
위에 정의나, 약어들이 꽤나 어렵게 보일테지만 전혀 어렵지 않다. 아래 예시를 보며 각 변수가 어떻게 동작하는지 간단히 살펴보자.

해당 MDP는 어머니 Agent가 아이를 재우는 목적을 지녔다.
어머니가 선택할 수 있는 액션은 두개로
하지만 여기서 아이가 서서히 잠이 오는 상태
[
이런식으로 계속 진행하여 S4(잠든상태) 로 진입하면 성공적으로 MDP의 목표를 달성했다고 말할 수 있다.
추가적으로 MDP를 상세하게 평가하기 위해 정책함수(특정 상태에서 특정 액션을 선택할 확률), 상태 가치 함수(정해진 액션을 따라갈 때 가치는?), 액션 가치 함수(Agent 가 선택하는 액션에 따라 달라지는 가치는?)등이 존재한다.
정책 함수(Policy Function)
각 상태에서 어떤 액션을 선택할지 정해주는 함수이다. 해당 함수는 보통
정책 함수를 확률을 이용하여 정의하면 아래와 같다.
상태 s에서 액션a 를 선택할 확률
위의 MDP 예시에 정책 함수를 적용 해 보자면,
각 상태에서 전이 가능한 모든 액션의 확률 값을 더하면 1이 되어야 한다.
이러한 정책 함수는 더 큰 보상(
상태 가치 함수(State Value Function)
상태 가치 함수의 식은 아래와 같다.
s부터 끝까지
상태 가치 함수는 이 정책함수
액션 가치 함수(Action Value Function)
액션 가치 함수의 식은 아래와 같다.
s에서 a를 선택하고, 그 이후에서는
액션 가치 함수는 특정 상태에서 특정 액션을 평가하기 위해 사용한다.
결론
결론적으로 우리는 MDP를 통해서 최적의 정책(
여기서 최적의 정책이란 이 세상의 존재하는 모든
또한 최적 정책
'Artificial Intelligence > Basic' 카테고리의 다른 글
GAN이란? (이미지 숫자 생성) (0) | 2023.06.07 |
---|---|
벨만 방정식(Bellman Equation) (0) | 2023.05.29 |
어텐션이란? (0) | 2023.04.14 |
점별 상호정보량(PMI, Pointwise Mutual Information) (0) | 2023.04.04 |
연쇄법칙(Chain Rule) (0) | 2023.03.31 |