Common Voice 데이터셋은 신뢰할 수 없다.
·
Artificial Intelligence/Post
Mozilla Common Voice commonvoice.mozilla.orgCommon Voice 데이터셋 + AI 모델로 여러 테스트를 거쳤는데내가 원하는 방향의 결과가 나오지 않았고,어떤 문제 때문일까 고심하던 차에 데이터 표본 자체를 신뢰할 수 없겠다는 결론을 내렸다. 그냥 원하는 결과 안나와서 땡깡부리는거 아니냐!할 수 도 있겠지만 나름대로 근거가 있다.우선 Common Voice 의 경우 Mozilla 제단에서 제공하는 음성 데이터 셋이다.한국어를 비롯한 세계 여러 언어의 음성 데이터를 제공하며,개인들이 직접 녹음할 수 있고, 이를 평가할 수 있다.마치 Wikipedia 같은 방식이라고 볼 수 있다. 나는 개인적으로 Wiki 가 가진 시스템의 장점이 참 마음에 드는데,결국 규모를 키우는데는 ..