OpenAI 사이트를 뒤져보던 중 흥미로운 주제가 있어서 정리하는겸, 포스팅을 작성 해 본다.
1. 서론
OpenAI 팀은 Weak-to-strong generalization 이라는 제목으로 짧은 글을 작성했다.
해당 글에선, '인간의 피드백(RLHF)' 을 통한 강화 학습과 같은 현재의 정렬 방법은 '인간의 감독' 에 의존한다는 문제점이 존재한다고 언급한다. 이러한 인간의 감독은 비용적, 시간적인 문제가 존재하며, 근래에는 오히려 AI 시스템이 인간을 상회하는 복잡하고 창의적인 행동을 수행해 낼 수 있다고 주장한다. (= AI 시스템이 AI를 감독할 수 있다)
예로 초인적(superhuman) 모델(그냥 매우 발전된 모델을 이렇게 표현한듯 싶다) 은 전문가들조차 이해하기 어려운 수백만줄의 참신한(비록 잠재적으로 위험하지만) 컴퓨터 코드를 작성할 수 있는 등, 인간보다 뛰어난 부분이 있다.
이는 즉 '초지능' 을 완성시키기 위한 명제로서, 지금까지는 인간이라는 AI 보다 더 똑똑한 존재가 선생님의 역할을 수행했지만, 이러한 방법은 이제 한계점에 도달했다. AI가 인간을 초월하려면 아래와 같은 명제가 증명 되어야 한다.
'더 작은(덜 능력있는)' 모델을 사용하여, '더 큰(더 능력있는)' 모델을 감독하는것이 가능한가?
Left - Traditional ML : 인간은 자신보다 덜 똑똑한 AI 시스템을 감독함. (마치 선생이 학생을 가르키듯)
Mid - Superalignment : 초지능을 달성하기 위해선 인간은 '인간보다 똑똑한' AI를 감독해야 한다.
Right - Our Analogy : 그렇다면 과연 더 '작은' 모델이 더 '큰' 모델을 감독 할수 있는가?
여기서 OpenAI는 약한 감독자가 불완전하거나 결함이 있는 훈련 라벨만을 제공하는 어려운 문제에서도 약한 감독자의 근본 의도에 따라 강력한 모델이 일반화 될 수 있는지에 대한 의문을 품는다.
2. 결과
OpenAI 팀에서는 이러한 역설적인 문제를 GPT-2 를 통해 GPT-4 를 감독함으로 검증해 보고자 하였다.
이러한 방식을 사용했을 경우 많은 부분에서 '일반화' 를 크게 향상시킬 수 있었다고 한다. NLP 작업에서 이러한 방식을 사용해 GPT-2 모델로 GPT-4 를 감독하였더니, 결과적으로 모델은 GPT-3 ~ GPT-3.5 수준의 성능을 보였다.
이는 약한 감독자에 비해서 강한 모델이 더 강한 확신을 갖도록 하는 효과를 불러일으킨다.
하지만 이 방법은 중요한 개념의 증명일 뿐이지, 명확한 제한사항이 존재한다.
예로 ChatGPT의 선호도 데이터에서는 여전히 동작하지 않는다는 문제점이 있다. 이는 모든 종류의 데이터나 작업에 대해 적용 가능하지 않다는 의미이다. (선호도 데이터란, ChatGPT가 대화를 생성할 때 고려하는 사용자의 선호도나 취향을 의미.)
3. 그래서 이게 왜 필요한데?
'인공지능은 인간의 지능을 초월할 것이기 때문이다.' - Superintelligence(초지능)
지금까지는 인간이 인공지능에게 피드백 해 줄 수 있었지만,
이러한 방식은 물리적인 한계에 부딪혔다.
더이상 무언가를 가르쳐줄만한 '선생' 은 존재하지 않는다.
AI 는 모든것을 초월할 것이고,
그 AI 를 교정해줄 것은 이 세상에 존재하지 않는다.
이런 상황속에서 AI는 어떻게 더 발전할 수 있을것인가?
OpenAI 의 비전은 이러한 모순점을 해결하기 위해, 즉
초지능(Superintelligence)을 달성하기 위해 달려가고 있는 것이다.
4. 현재 OpenAI 의 단기적인 목표는?
현재 OpenAI 의 단기적 목표는 대략 인간 수준의 자동 정렬 연구원을 제작하는 것이다. 만약 이것이 성공한다면 이 다음 방대한 양의 컴퓨팅 자원을 사용하여 초지능을 반복적으로 조정할 수 있다. OpenAI 는 이러한 목표를 달성하기 위해서 2023년 ~ 2027년 까지, 확보한 컴퓨팅 자원의 20%를 초지능 정렬문제를 해결하는데 할애하려는 계획을 수립, 이행중이다.
참고로 OpenAI 에서는 관련해서 논문 역시 공개했다.