Common Voice 데이터셋은 신뢰할 수 없다.
·
Artificial Intelligence/Post
Mozilla Common Voice commonvoice.mozilla.orgCommon Voice 데이터셋 + AI 모델로 여러 테스트를 거쳤는데내가 원하는 방향의 결과가 나오지 않았고,어떤 문제 때문일까 고심하던 차에 데이터 표본 자체를 신뢰할 수 없겠다는 결론을 내렸다. 그냥 원하는 결과 안나와서 땡깡부리는거 아니냐!할 수 도 있겠지만 나름대로 근거가 있다.우선 Common Voice 의 경우 Mozilla 제단에서 제공하는 음성 데이터 셋이다.한국어를 비롯한 세계 여러 언어의 음성 데이터를 제공하며,개인들이 직접 녹음할 수 있고, 이를 평가할 수 있다.마치 Wikipedia 같은 방식이라고 볼 수 있다. 나는 개인적으로 Wiki 가 가진 시스템의 장점이 참 마음에 드는데,결국 규모를 키우는데는 ..
[OpenAI] Superalignment
·
Artificial Intelligence/Post
OpenAI 사이트를 뒤져보던 중 흥미로운 주제가 있어서 정리하는겸, 포스팅을 작성 해 본다. 1. 서론 OpenAI 팀은 Weak-to-strong generalization 이라는 제목으로 짧은 글을 작성했다. 해당 글에선, '인간의 피드백(RLHF)' 을 통한 강화 학습과 같은 현재의 정렬 방법은 '인간의 감독' 에 의존한다는 문제점이 존재한다고 언급한다. 이러한 인간의 감독은 비용적, 시간적인 문제가 존재하며, 근래에는 오히려 AI 시스템이 인간을 상회하는 복잡하고 창의적인 행동을 수행해 낼 수 있다고 주장한다. (= AI 시스템이 AI를 감독할 수 있다) 예로 초인적(superhuman) 모델(그냥 매우 발전된 모델을 이렇게 표현한듯 싶다) 은 전문가들조차 이해하기 어려운 수백만줄의 참신한(비록..