강화학습, 월드모델의 차이점

최근 생성형 AI와 로보틱스 분야에서 월드 모델(World Model)이라는 키워드가 자주 등장한다. 이 개념을 공부하다 보면 자연스럽게 이런 의문이 든다. 어차피 둘 다 에이전트가 환경에서 상호작용하며 배우는 것 같은데, 월드 모델이랑 강화학습은 대체 뭐가 다른가? 이전에 리뷰한 World Models(2018) 논문을 보면, 월드 모델이 실제 게임을 하는것 처럼 보이기 때문이다.

비슷해 보이지만, 두 모델은 목표와 역할이 분명히 다르다. 이 글에서는 월드 모델과 강화학습의 개념적 차이를 간단히 설명한다.

요약

월드 모델(World Model): 환경 동역학을 학습하고 미래 상태를 예측한다. 즉 "이 행동을 하면 세상이 어떻게 변하는가?"에 관심이 있으며, 예측 정확도로 평가받는다.
강화학습(Reinforcement Learning): 환경과 상호작용하며 보상을 최대화하는 정책을 학습한다. 즉 "어떻게 행동해야 보상을 가장 많이 받는가?"에 관심이 있으며, 누적 보상으로 평가받는다.

즉, 월드 모델은 점수에는 관심이 없고, 세상이 어떻게 변하는지를 잘 맞히는 것만 신경 쓴다. 반면 강화학습은 세부 물리가 어떻든 점수만 잘 나오면 된다는 입장이다. 환경 그 자체와 환경에서 활동하는 Agent로 그 차이를 말할 수 있는것이다.

근거

나를 포함해 많은 사람들이 헷갈리는 지점은 바로 유명한 World Models(2018) 논문 때문이다. 이 논문을 대충 보면, 월드 모델이 마치 스스로 게임을 풀고, 꿈도 꾸고, 에이전트처럼 행동하는 것처럼 보인다. 그러나 자세히 읽어보면, 저자들은 에이전트를 세 가지 모듈로 명확히 분리해 두었고, 이 세가지 모듈은 크게 두가지 개념(월드모델, 강화학습)으로 분리된다.

$V$(Vision, 시각 인코더): 입력 이미지(픽셀)를 받아서 저차원 잠재 벡터 $z$로 압축하는 VAE이다. 지금 화면이 어떤 상황인지를 요약하는 역할을 한다.
$M$(Memory, 시계열 예측기): RNN 기반 MDN-RNN으로, 현재의 $z$, 과거의 히든 상태 $h$, 그리고 행동 $a$를 받아 다음 잠재 상태와 같은 미래를 예측한다. 즉, 지금 이렇게 움직이면 다음에는 어떤 장면이 나올까? 를 예측하는 순수한 동역학 모델이다.
$C$(Controller, 제어기/정책): $z$와 $h$를 입력으로 받아 실제 행동 $a$를 출력하는 매우 작은 선형 정책 모듈이다. 이 모듈만이 보상(reward)에 접근하며, 누적 보상을 최대화하도록 최적화된다.

논문에서 저자들은 직접 다음과 같이 밝힌다. "실험에서 우리는 의도적으로 $C$를 가능한 한 단순하고 작게 만들고, $V$와 $M$과는 분리해서 훈련함으로써, 에이전트의 복잡성 대부분이 월드 모델(V와 M)에 머무르도록 했다"

또한 CarRacing 실험을 설명하는 부분에서는, 이 실험에서 월드 모델(V와 M)은 환경의 실제 보상 신호에 대한 정보를 전혀 가지지 않으며, 단지 프레임 시퀀스를 압축하고 예측하는 역할만 한다. 보상 정보에 접근하는 것은 오직 컨트롤러(C)뿐이라고 명시한다.

즉, 논문에서 월드 모델이라고 부르는 것은 엄밀히 $V + M$이고, $C$는 그 위에 얹힌, 월드모델과는 별개의 모듈임을 저자가 직접 못 박는 셈이다.

논문 World Models 인용

"In our experiments, we deliberately make C as simple and small as possible, and trained separately from V and M, so that most of our agent's complexity resides in the world model (V and M)."
→ "우리의 실험에서, 우리는 의도적으로 C를 가능한 한 단순하고 작게 만들었으며 V와 M과는 분리하여 훈련시켰습니다. 그리하여 우리 에이전트의 복잡성 대부분이 월드 모델(V와 M)에 머무르도록 했습니다."

"In this experiment, the world model (V and M) has no knowledge about the actual reward signals from the environment. Its task is simply to compress and predict the sequence of image frames observed. Only the Controller (C) Model has access to the reward information from the environment."
→ "이 실험에서 월드 모델(V와 M)은 환경으로부터의 실제 보상 신호에 대한 어떠한 정보도 가지고 있지 않습니다. 그것의 임무는 단순히 관찰된 이미지 프레임 시퀀스를 압축하고 예측하는 것입니다. 오직 컨트롤러(C) 모델만이 환경으로부터의 보상 정보에 접근할 수 있습니다."

결론

Nvidia의 글을 보면 이를 확실히 할 수 있다.

월드 모델은 물리와 공간적 특성을 포함한 실제 세계의 동역학을 이해하는 신경망이다. 텍스트, 이미지, 비디오, 움직임 등의 입력 데이터를 활용해 현실적인 물리 환경을 시뮬레이션하는 영상을 생성할 수 있다. 피지컬 AI 개발자들은 로봇과 자율주행 차량을 학습시키기 위해 맞춤형 합성 데이터나 후속 AI 모델을 생성하는 용도로 월드 모델을 활용한다.

월드 모델과 강화학습을 엄밀히 구분하길 바란다. 어떤 이들은 월드모델을 마치 에이전트처럼 구축할수도 있지 않느냐고 반문하겠지만, 이미 그런 단계에 진입한 순간 월드모델이 아니다. Dreamer V3 같은 글의 포스팅을 보면 "월드 모델을 통해 최초로 마인크래프트에서 다이아몬드를 채굴하는데 성공했다" 라고 선전하지만, 이는 World Model을 활용해 강화학습 에이전트를 학습시켜 다이아몬드를 채굴하는데 성공한것이지, 월드모델이 다이아몬드를 채굴한게 아니라는 것을 명확히 할 필요가 있다.

월드모델은 세계의 동역학을 이해하는 신경망으로서, 다른 후속 AI모델을 생성하는 용도로 주로 사용됨을 명심하라.

저작자표시 비영리 동일조건 (새창열림)

'Artificial Intelligence > Insights' 카테고리의 다른 글

MDP, TD, MC를 이해해보자 (1)	2026.01.27
강화학습, 지도학습의 차이점 (0)	2026.01.07
LLM 서빙 최적화의 함정: Chunked Prefill과 Disaggregation의 한계 (0)	2025.11.01
Common Voice 데이터셋은 신뢰할 수 없다. (0)	2024.01.31
[OpenAI] Superalignment (0)	2023.12.15

요약

근거

결론

'Artificial Intelligence > Insights' 카테고리의 다른 글

티스토리툴바