23년 11월 7일경에 ArXiv 및 11월 15일 경에 IEEE 에 등재된 논문으로서, 제목이 흥미로워 읽게 되었다.
어린이 음성을 input 으로 Confomer, Whisper, Wav2vec 2.0 의 성능을 비교하는 논문이다.
1. Introduce
ASR 모델의 훈련은 데이터로 인한 문제가 많이 발생한다. 훈련 데이터가 많지 않거나, transcript 되지 않은 데이터, '어린이' 와 같은 특수 대상의 음성으로 발생하는 문제 등이 지속되고 있다.
하지만 여러 연구자들이 각종 해결법을 제시하면서, 성인 음성에 대해서 인상적인 ASR 성능 증대로 이어졌으며, 심지어 인간 수준의 성능을 달성하는데에도 성공하였다.
하지만 이런 훈련은 어디까지나 주석이 있는(annotated) 음성 데이터가 충분하기에 가능했으며, 이런 주석이 없는 어린이 음성에 대한 ASR 의 진전은 비교적 더디다. 어린이 음성 데이터 세트는 성인 음성 데이터와 달리 수집하고 주석을 달기가 까다롭다.(이는 어린이 음성과 성인 음성이 고유한 기본 주파수 차이를 보이는것도 한 원인이다.)
그나마 최근 다양한 supervised, unsupervised ASR 훈련 접근 방식의 개발로 인해서 어린이 ASR 개발에도 큰 진전이 있었다. 특히 wav2vec 2.0 과 같은 unsupervised pre-training 기술은 어린이 ASR 을 제작하는데에 있어 큰 도움이 되었다.
하지만 labeled 데이터를 사용하는 fine-tuning 단계에 의존하면 특정 데이터세트에 과도하게 적합하고, 다양한 분포에 잘 일반화 되지 않을 수 있기에, 유용성이 크게 저하될 수 있다.(해당 부분은 전에 작성한 whisper 에 관한 논문을 참조하길 바란다, 여기서 근본적으로 labeled 데이터를 사용하는것 자체는 문제가 되지 않는다. 다만 특정 평가 data-set 에 fine-tuning 하는것이 문제이다.). 결론적으론, 현재 최신 연구 결과는 여러 데이터 세트 / 도메인에 대한 pretraining 훈련을 포함하는 지도 방법이 전반적인 모델의 견고성과 일반화 성능을 향상시킬 수 있음을 나타낸다. 때문에 가능하면 다양한 고품질의 데이터, 특히 supervised 데이터, 혹은 그것이 불가능하다면 weakly supervised 를 얻어 모델을 학습시켜 일반화 시키는것이 중요하다.
본 연구에서는 '어린이 음성 인식 작업' 에 촛점을 맞춰 우수한 ASR 모델인 Conformer-transducer 를 사용한다. 이에 더해 wav2vec 2.0 및 whisper 에 대한 benchmark 결과와 해당 모델의 비교 분석을 시도한다. 해당 모델들을 선택한 이유는, 성인 음성에서 테스트 했을 때 좋은 결과를 보여 주었으므로, 이를 어린이 음성 데이터 세트에 적용하기로 판단하였다.
2. Model
A. Conformer
Conformer 는 Transformer 에 Conformer 를 더한뒤 macaron 구조를 적용하여 성능을 개선시킨 모델이다.
- Transformer : Multi-Head Self Attention → Feed Forward
- Conformer : Feed Forward → Multi-Head Self Attention → Convolution → Feed Forward
상세한 내용은 Conformer 리뷰를 참조하길 바란다.
B. Whisper
간단하게 요약하면 whisper 는 weakly supervised 데이터가 ASR 제작에 있어 매우 중요한 역할을 할 수 있다는 것을 증명한 논문이다. 해당 논문에선 68만 시간의 weakly supervised 데이터를 포함한 lebeled 데이터 셋을 구축하였다.
구조는 특별하지 않은 일반적인 transformer 구조를 사용한다. encoder-decoder transformer 네트워크에 2개의 convolution layer, sinusoidal positional encoding 등을 사용하며, decoder 는 encoder 와 동일한 수의 transformer 블록을 사용한다
whisper 에 대한 자세한 내용은 이전 포스팅을 참조하길 바란다.
C. wav2vec 2.0
wav2vec 2.0은 2단계 아키텍처(pre-training, fine-tuning)를 기반으로 음성 표현의 self-supervised 학습을 수행하는 음성 인식 모델이다. 아키텍처는 CNN 특징 추출기, 트랜스포머 기반 인코더 및 양자화 모듈의 세 가지 주요 구성 요소로 구성된다 pre-training 동안 모델은 음성의 시간적 및 스펙트럼 특성을 캡처하여 의미 있는 표현을 획득하기 위해 레이블이 지정되지 않은 음성 데이터의 방대한 데이터 세트에서 훈련된다. 이는 마스킹된 대조 손실 함수를 사용하여 수행된다. 미세 조정 단계에서 사전 훈련된 모델은 특정 다운스트림 작업에 맞게 조정된 더 작은 레이블이 지정된 데이터 세트에서 추가로 훈련된다. 여기서 사전 훈련된 모델의 마지막 계층은 작업별 피드포워드 계층으로 대체되고 ASR에 대한 CTC 손실을 최소화하여 전체 모델을 미세 조정한다.
wav2vec 2.0 에 대한 자세한 내용은 이전 포스팅을 참조하길 바란다.
D. 모델 학습에 대한 잡다한 내용
모든 모델은 48GB 의 메모리를 지닌 A6000 GPU 에서 학습되었으며, 각 Architecture Parameter 는 아래와 같다.
해당 모델들은 pre-trained 되었으며, 특히 Conformer 는 아래 데이터셋들로 부터 훈련(pre-trained)받았다 명시하고 있다.
- Librispeech
- Fisher Corpus
- Switchboard-1
- WSJ-0, WSJ-1
- National Speech Corpus
- VCTK
- VoxPopuli
- Europarl
- Multilingual Librispeech
- Mozilla Common Voice
- People Speech
Whisper 는 특별히 pre-trained 데이터셋을 명시하고 있지 않으며(아마 whisper 논문에서 언급한건 '훈련용' 이 아니라 '평가용' 일 것이다. 때문에 명시하고 있지 않다고 언급)
Wav2vec 2.0 은 6만 시간의 libre-light 데이터셋으로 pre-trained 되었다고 한다.
참고로 저자들의 연구에서는 아래 데이터셋을 pre-trained, accuracy 용도로 사용한다고 한다.
- Child
- MyST Corpus
- PFSTAR dataset
- CMU Kids datase
- Adult
- 하나의 데이터셋을 추가로 사용했다고 하는데, 뭘 사용했는지는 명시해두지 않았다.
외에도 특수문자, 공백 등을 정리하는 작업을 거쳤다고 하며, 16khz 샘플링 속도를 갖도록 수정하였다고 한다. 여기서 특이한점은 확실히 '아동' 음성이라서 그런지 데이터셋의 분량이 매우 제한적이라는 것이다. 고작 55시간의 훈련용, 10시간의 테스트용 두 하위 집합으로 나누었다고 한다.
외에도 챕터에서는 학습률 설정방법, fine-tuning epoch 등등에 관해서 상세히 명시하고 있다.
3. Result
A. No-Funetuning Experiments
각 음성 테스트 데이터셋에 대한 정보는 아래와 같다.
- MyST(My Science Tutor): My Science Tutor는 어린이들이 과학을 배우기 위해 대화형 튜터링 시스템과 상호작용하는 동안의 음성 데이터를 포함한다. 이 데이터셋은 어린이의 음성 인식 시스템에 특화되어 있으며, 자연스러운 대화와 학습 상황에서의 어린이 음성을 포함한다.
- PFSTAR: 이 데이터셋은 어린이의 음성 인식 연구를 위해 구축되었으며, 유럽 여러 언어의 어린이 음성을 포함할 수 있다. PFSTAR는 다양한 어린이 음성의 특성을 포착하여, 음성 인식 시스템이 어린이와의 상호작용에서 더 나은 성능을 발휘하도록 돕는다.
- CMU Kids: CMU Kids 데이터셋은 카네기 멜론 대학교에서 개발되었으며, 어린이의 음성 인식 연구에 사용된다. 이 데이터셋은 어린이가 발화한 음성을 포함하고 있으며, 이를 통해 음성 인식 시스템이 어린이의 언어 패턴과 발음 특성을 더 잘 이해하고 인식할 수 있게 된다.
B. After Finetuning
결론적으로 저자들은 wav2vec 2.0 이 어린이 데이터에 대한 fine-tuning 했을때 최고의 ASR 모델일 수 있다고 결론짓는다. 하지만 이 글을 보는 모두가 알고 있듯, 고작 총량 65시간의 fine-tuning 데이터셋은 일반화된 성능을 평가하기에 너무 형편없는 데이터 양이다. (그만큼 아동용 음성에 대한 데이터를 수집하기 어렵다는 방증이기도 하다.)
때문에 저자들 역시 이 사실을 인지하고, 모델의 견고성 및 일반화 기능은 검증되어있지 않았으며 이에 대해 검증하려면 다양한 데이터 세트에 대한 추가 평가 및 테스트가 필요하다고 언급한다.
4. Conclusions
본 논문에서는 어린이 음성 인식의 모델별 성능을 확인하기 위해 Conformer, Whisper, Wav2vec 2.0 모델을 서로 비교하였다. 모든 모델이 동일한 매개 변수 범위 내에서 평가되고, 동일한 데이터 세트를 사용하여 훈련/평가하여 가능한 공정한 비교를 수행하였다고 한다.
여기서 confomer 를 fine-tuning 하는 것은 whisper, wav2vec 2 의 fine-tuning 에 비해 더 우수한 WER 지표를 산출하지는 못 하였다고 말한다. 특히 일반화 능력은 모델의 크기에 직접적인 영향을 받기에, 상대적으로 모델 크기가 큰 whisper, wav2vec 2.0 의 성능이 우수할 수 있다는 것이다. 이는 데이터만 더 추가되면 confomer 도 우수한 성능을 낼 가능성이 있는 방증이다. (저자들이 모델의 parameters 가 증가함에 따라 다른 모델 대비 더 큰 WER 저하를 지닌다는걸 증거로 추측함.)
어찌되었든, 저자들은 전반적으로 wav2vec 2.0 이 가장 유망한 결과를 보여주었고, 다른 모델 중 하위 데이터를 미세 조정하는데 있어 최고의 ASR 모델로 간주될 수 있다고 언급한다.
5. 느낀점
그냥 가벼운 용도로 보기 좋은것 같다. 아동 음성 데이터셋이 부족하다는 한계점을 타파한 논문도 아닐뿐더러, 제한적인 데이터세트로 인해 confomer, whisper, wav2vec 2.0 의 성능이 엄밀하게 평가되었다고 말하기도 뭐 하다.
해당 논문에서 증명된 사실은 아동 음성을 대상으로 했을 때, "pre-trained 된 ASR 모델들을 65시간의 제한된 데이터셋을 가지고 fine-tuning 해야 한다면 wav2vec 2.0이 가장 좋습니다." 정도와, "pre-trained 된 데이터 셋에 아동용 음성 데이터가 현저히 부족하다는 점" 정도이다.
재미있는 점은 이전 whisper 논문에서 말한 내용(데이터셋이 많은게 모델 성능을 일반화하는데 도움됨, fine-tuning? 그냥 순수히 해당 fine-tuning 된거에서만 성능 올라가고, 평가셋 바꾸면 성능 바로 고꾸라짐.)을 해당 논문에서도 간접적으로 검증할 수 있었다는 점이다.
전반적으로 fine-tuning 을 수행할 때 훈련된 데이터셋이 적은 모델부터 fine-tuning 되지 않은 평가 데이터셋의 성능이 급격히 저하되는 모습을 확인할 수 있다.
MyST 를 fine-tuning 한 데이터셋에선 전반적으로 PFS 의 WER 지표가 높아지는 결과를 불러 일으켰고, PFS 데이터셋을 통해 fine-tuning 해도 MyST 데이터셋의 WER 지표는 높아졌다.
MyST + PFSTAR 데이터셋을 합쳐 fine-tuning 했을때도 CMU 데이터셋의 WER 평가지표는 wav2vec 2.0 데이터셋 을 제외하고는 모두 더 좋지 않은 지표들을 보여주었다.
장 큰 모델을 기준으로 비교 하였으며, 각 모델별 pre-trained 에 사용된 데이터의 양은 아래와 같다.
- Conformer(Xlarge) – 24k
- Whisper(Large v2) – 680k
- Wav2vec 2.0(large) – 60k
fine-tuning 된 모델 외의 WER 지표를 비교하면 아래 표와 같이 정리할 수 있다.
표1 - finetuning 된 모델 외의 WER 변동
Fine-tuning Dataset | Comparison Dataset | Model | WER Change(%) |
MYST | PFS | conformer | +435% |
MYST | CMU | conformer | +39% |
PFS | MYST | conformer | +255% |
PFS | CMU | conformer | +407% |
MYST + PFS | CMU | conformer | +43% |
MYST | PFS | wav2vec 2.0 | +45% |
MYST | CMU | wav2vec 2.0 | +2% |
PFS | MYST | wav2vec 2.0 | +117% |
PFS | CMU | wav2vec 2.0 | +43% |
MYST + PFS | CMU | wav2vec 2.0 | -5% |
MYST | PFS | whisper | -86% |
MYST | CMU | whisper | +23% |
PFS | MYST | whisper | +8% |
PFS | CMU | whisper | +19% |
MYST + PFS | CMU | whisper | +34% |
표2 - 변동된 평균 WER
Model | Average WER Change(%) |
conformer | +235.8% |
wav2vec 2.0 | +40.4% |
whisper | -0.4% |
마지막으로 저자들이 추측하는 conformer 가 fine-tuning 했을 때 가장 WER 지표 하락이 가팔라서, 아마 conformer pre-trained 에 데이터 좀 더 추가해서 fine-tuning 하면 더 지표가 좋아지지 않을까? 하는 추측이 어느정도는 납득이 된다.
다만 어디까지나 추측일 뿐이므로, 이는 다른 누군가가 또 검증해야할 일이다.
'Artificial Intelligence > Article' 카테고리의 다른 글
[리뷰] Make-A-Voice (0) | 2024.02.15 |
---|---|
[리뷰] Conformer (0) | 2024.01.22 |
[리뷰] Robust Speech Recognition via Large-Scale Weak Supervision (0) | 2024.01.09 |
[리뷰] GAN(Generative Adversarial Networks) (0) | 2023.11.23 |
[리뷰] wav2vec 2.0 (0) | 2023.08.21 |