[리뷰] Conformer
·
Artificial Intelligence/Article
Conformer 는 ASR 모델중 하나로서, 나온지 어느정도 지난 모델이다. 2020년 Google에 의해 공개 된 논문이기에, 굳이 리뷰할 생각을 가지지 못했었지만, 여러 논문들을 리뷰해 보니 Whisper, Wav2vec 2.0 등에 비해 뒤쳐지는 모델도 아닐뿐더러 굉장히 많이 인용된다는 사실을 알게 되었기에 리뷰한다. 이 포스팅의 본문을 볼 때 해당 논문이 2020년에 작성된 논문이라는 점을 인지하고 보길 바란다. 현행 ASR 에서 필수적으로 인용되는 wav2vec 2.0 역시 2020년도에 작성된 논문이기에, conformer 에서는 그러한 배경을 반영하기 어려웠다. 1. Introduce end-to-end ASR 시스템은 최근 몇 년간 큰 발전을 이루었다. RNN 을 기반으로 Audio Se..
[리뷰] A comparative analysis between Conformer-Transducer, Whisper, and wav2vec2 for improving the child speech recognition
·
Artificial Intelligence/Article
23년 11월 7일경에 ArXiv 및 11월 15일 경에 IEEE 에 등재된 논문으로서, 제목이 흥미로워 읽게 되었다. 어린이 음성을 input 으로 Confomer, Whisper, Wav2vec 2.0 의 성능을 비교하는 논문이다. 1. Introduce ASR 모델의 훈련은 데이터로 인한 문제가 많이 발생한다. 훈련 데이터가 많지 않거나, transcript 되지 않은 데이터, '어린이' 와 같은 특수 대상의 음성으로 발생하는 문제 등이 지속되고 있다. 하지만 여러 연구자들이 각종 해결법을 제시하면서, 성인 음성에 대해서 인상적인 ASR 성능 증대로 이어졌으며, 심지어 인간 수준의 성능을 달성하는데에도 성공하였다. 하지만 이런 훈련은 어디까지나 주석이 있는(annotated) 음성 데이터가 충분하기..
[리뷰] Robust Speech Recognition via Large-Scale Weak Supervision
·
Artificial Intelligence/Article
해당 논문은 OpenAI 에서 제작한 Whisper 라는 범용 목적의 음성 인식기를 제작하는데 있어서 사용된 논문이다. 1. Introduce 음성인식의 발전은 wav2vec 2.0 에 의해, unsupervised(unlabeled) pre-training 이 가능하게 됨으로 인해 기존에는 활용할 수 없었던 unlabeled 데이터를 생산적으로 사용할 수 있게 되었으며, unlabeled 데이터셋들이 빠르게 확장되는등 긍정적인 영향을 미쳤다. 하지만, 이러한 unlabeled 데이터로 학습된 encoder 는 고품질의 음성표현을 학습했지만, 해당 표현을 출력에 매핑하는 동등한 성능의 디코더는 부족한 실정이다. (ASR은 Encoder 와 Decoder 로 구성되며, 위에서 언급되는 wav2vec 2.0..
[리뷰] GAN(Generative Adversarial Networks)
·
Artificial Intelligence/Article
이전 GAN 포스팅에서는 GAN을 구현하고 어떤식으로 동작하는지 직관적으로 살펴 보았다면, 이번 포스팅은 Ian Goodfellow 가 작성한 GAN 논문을 요약해 살펴보고자 한다.1. 수식$$\min_G \max_D V(D,G) = \mathbb{E}_{x\sim p(data)} [\log(D(X))]  + \mathbb{E}_{z\sim p(z)}[\log(1- D(G(Z))]$$ 각 기호의 의미는 아래와 같다.${\min\limits_G \max\limits_D}$ : 생성기 $G$는 손실함수를 최소화해야 하는 반면, 판별자 $D$는 손실함수를 최대화 해야 한다는 의미이다.$V(D,G)$ : 최종적으로 도출해야하는 목적함수이다.$\mathbb{E}_{x\sim p(data)} [\log(D(X))]..
[리뷰] wav2vec 2.0
·
Artificial Intelligence/Article
1. 서론 wav2vec 2.0 은 2020년 Facebook AI 에서 발표한 논문으로서 음성변환 / TTS / ASR 분야에서 라벨링된 데이터가 많이 존재하지 않을 경우에도 성능을 극적으로 끌어올릴 수 있는 기술(wav2vec 2.0) 을 제안하는 논문이다. 이전 StarGANv2-VC 논문 리뷰에서도 살펴볼 수 있듯, 이러한 음성 변환/생성 기술에는 기본적으로 라벨링된 데이터를 통해 데이터를 학습하는 과정이 필요하다. StarGANv2-VC 에서는 ASR모델을 통해 간접적으로 음성변환 모델을 학습 하는데 사용한다. 실제로 StarGANv2-VC 논문에 사용되는 ASR 모델을 학습하는 코드를 보면, 관련되어 이미 Transcript 된 파일을 하나 확인할 수 있다. 코드를 훑어보니 이 ASR 학습 모..
[리뷰] StarGANv2-VC
·
Artificial Intelligence/Article
1. 서론 StarGANv2-VC 는 기존 StarGANv2 논문 기반하에 제작된 비병렬 음성 데이터의 다대다 Conversion 모델이다. 기존 StarGAN 이 '이미지' 를 대상으로 했다면 해당 논문은 '음성' 에 촛점을 맞춘것이 특징적이다. 만약 고전적인 음성 변환을 수행하려면 같은 Content 를 가진 Source 음성과 Target 음성 두 데이터가 모두 필요하다고 추측할 수 있다. 하지만 이 StarGANv2-VC 모델을 통해 음성을 학습시킨다면, 'Target' 데이터를 학습시킨 신경망을 Base로 Source 음성을 바꿔가면서 변경할 수 있다. 즉 '비병렬' 데이터만 있어도 유의미하게 데이터를 변환할 수 있다. 개인적으로 이 논문을 읽기까지 꽤 많은 배경조사를 진행했는데, 현재 2023..
[리뷰] Style-Based GAN
·
Artificial Intelligence/Article
Style-Based GAN 논문은 이전에 리뷰한 논문들보다 어려운 계념들을 담고 있어서 리뷰를 하지 않으려고 했지만, 현재까지의 GAN 기술의 기초를 완성시키는 의미가 있는 논문이기에 이전 GAN 시리즈와 함께 리뷰를 완성하려고 한다. 1. Style-Based GAN 이란? Styly GAN 이 무엇인지는 위 동영상으로 깔끔하게 정리된다. The new architecture leads to an automatically learned, unsupervised separation of high-level attributes (e.g., pose and identity when trained on human faces) and stochastic variation in the generated imag..
[리뷰] PGGAN(Progressive Growing of GANs)
·
Artificial Intelligence/Article
해당 포스팅에서는 PGGAN 논문에 대해서 간단히 살펴보도록 한다.이번 포스팅에선 불필요한 내용에 대한 리뷰 및 코드 구현은 생략하도록 하겠다. 저번 Attention 논문 리뷰처럼 상세하게 훑고 넘어간다면 포스팅 하나 작성하는 데에만 3주 가까이 소요될 것이기 때문에, 최대한 간결하게 핵심적인 부분만 짚고 넘어가도록 하겠다. 1. 서론우리는 이전 GAN 포스팅에서 데이터로 된 숫자를, 28 x 28 이미지 숫자로 바꾸는 예제를 진행했었다.결과를 보면 100% 만족스럽지는 않지만 꽤나 유의미한 데이터들을 많이 추출할 수 있었다. 추가로 이전 Conditional GAN 포스팅을 통해서 이미지를 Class 별로 조정하여 보다 정확한 이미지를 추출할 수 있었다. 이제 이것들을 배경으로 아래 내용들을 살펴보자..
[리뷰] Attention Is All You Need
·
Artificial Intelligence/Article
Attention Is All You Need는 실제 구글 번역기에 적용된 'Transformer' 기술을 소개하는 논문이다. BERT 나 ChatGPT 역시 transformer 모델을 기반으로 변형한 모델을 만들어 사용 있고, 현재 가장 진보된 번역모델로 알려진 NLLB-200 역시 transformer 모델을 기반으로 하고 있기에 시계열 데이터를 처리함에 있어 매우 중요한 논문이라고 할 수 있다. 때문에 해당 논문을 자세히 분석해 보고자 포스팅을 작성한다. 1. Introduce & Background 기존에 시계열 데이터를 처리하는 방식은 recurrence 계열의 RNN - LSTM - GRU기술이 있다. 하지만 이 기술들은 하나씩 문제점을 가지고 있다. 그 중 공통적으로 가지고 있는 문제점은 ..