'AI' 카테고리의 글 목록 (2 Page)

2024.01.31· AI

Mozilla Common Voice commonvoice.mozilla.org Common Voice 데이터셋 + AI 모델로 여러 테스트를 거쳤는데 내가 원하는 방향의 결과가 나오지 않았고, 어떤 문제 때문일까 고심하던 차에 데이터 표본 자체를 신뢰할 수 없겠다는 결론을 내렸다. 그냥 원하는 결과 안나와서 땡깡부리는거 아니냐! 할 수 도 있겠지만 나름대로 근거가 있다. 우선 Common Voice 의 경우 Mozilla 제단에서 제공하는 음성 데이터 셋이다. 한국어를 비롯한 세계 여러 언어의 음성 데이터를 제공하며, 개인들이 직접 녹음할 수 있고, 이를 평가할 수 있다. 마치 Wikipedia 같은 방식이라고 볼 수 있다. 나는 개인적으로 Wiki 가 가진 시스템의 장점이 참 마음에 드는데, 결국 규..

인공지능에서 Parameter 란?

2024.01.27· AI/Basic

pre-trained 된 모델들을 보면 parameter 라는 단어가 눈에 띈다. 이러한 parameter 는 hyper-parameter 와는 별개의 뜻으로 사용된다. 통상적으로 hyper-parameter 는 학습과정에 있어 유저가 지정할 수 있는 값들을 의미한다. 예로 learning-rate, epoch, multi-head attention count 등이 포함된다. 반면 parameter 는 아래와 같은 의미를 지닌다. In an A.I. model, what exactly is a "parameter" counting? Tim Converse's answer: The question was “In an A.I. model, what exactly is a ‘parameter’ counting..

[리뷰] Conformer

2024.01.22· AI/Article

Conformer 는 ASR 모델중 하나로서, 나온지 어느정도 지난 모델이다. 2020년 Google에 의해 공개 된 논문이기에, 굳이 리뷰할 생각을 가지지 못했었지만, 여러 논문들을 리뷰해 보니 Whisper, Wav2vec 2.0 등에 비해 뒤쳐지는 모델도 아닐뿐더러 굉장히 많이 인용된다는 사실을 알게 되었기에 리뷰한다. 이 포스팅의 본문을 볼 때 해당 논문이 2020년에 작성된 논문이라는 점을 인지하고 보길 바란다. 현행 ASR 에서 필수적으로 인용되는 wav2vec 2.0 역시 2020년도에 작성된 논문이기에, conformer 에서는 그러한 배경을 반영하기 어려웠다. 1. Introduce end-to-end ASR 시스템은 최근 몇 년간 큰 발전을 이루었다. RNN 을 기반으로 Audio Se..

[리뷰] A comparative analysis between Conformer-Transducer, Whisper, and wav2vec2 for improving the child speech recognition

2024.01.11· AI/Article

23년 11월 7일경에 ArXiv 및 11월 15일 경에 IEEE 에 등재된 논문으로서, 제목이 흥미로워 읽게 되었다. 어린이 음성을 input 으로 Confomer, Whisper, Wav2vec 2.0 의 성능을 비교하는 논문이다. 1. Introduce ASR 모델의 훈련은 데이터로 인한 문제가 많이 발생한다. 훈련 데이터가 많지 않거나, transcript 되지 않은 데이터, '어린이' 와 같은 특수 대상의 음성으로 발생하는 문제 등이 지속되고 있다. 하지만 여러 연구자들이 각종 해결법을 제시하면서, 성인 음성에 대해서 인상적인 ASR 성능 증대로 이어졌으며, 심지어 인간 수준의 성능을 달성하는데에도 성공하였다. 하지만 이런 훈련은 어디까지나 주석이 있는(annotated) 음성 데이터가 충분하기..

[리뷰] Robust Speech Recognition via Large-Scale Weak Supervision

2024.01.09· AI/Article

해당 논문은 OpenAI 에서 제작한 Whisper 라는 범용 목적의 음성 인식기를 제작하는데 있어서 사용된 논문이다. 1. Introduce 음성인식의 발전은 wav2vec 2.0 에 의해, unsupervised(unlabeled) pre-training 이 가능하게 됨으로 인해 기존에는 활용할 수 없었던 unlabeled 데이터를 생산적으로 사용할 수 있게 되었으며, unlabeled 데이터셋들이 빠르게 확장되는등 긍정적인 영향을 미쳤다. 하지만, 이러한 unlabeled 데이터로 학습된 encoder 는 고품질의 음성표현을 학습했지만, 해당 표현을 출력에 매핑하는 동등한 성능의 디코더는 부족한 실정이다. (ASR은 Encoder 와 Decoder 로 구성되며, 위에서 언급되는 wav2vec 2.0..

docker: Error response from daemon: unknown or invalid runtime name: nvidia.

2024.01.01· AI/Preferences

도커를 사용하여 Tensorflow 저장소를 정리하고, 다시 Container 를 만들던 도중 이러한 오류를 만났다. 나는 아래와 같은 과정을 통해 오류를 해결했다. 1. Systemd 활성화 Enable Systemd in WSL 2 I am attempting to debug some C# / .NET 5 code in WSL 2 with Ubuntu on Windows. I have WSL 2 setup with Windows 10 and want to test out creating a Systemd service. Unfortunately, it appears Systemd... stackoverflow.com 기본적으로 WSL2 를 최신 버전으로 업데이트 하길 권장하며, 위 글의 옵션 1 절차..

[OpenAI] Superalignment

2023.12.15· AI/Post

OpenAI 사이트를 뒤져보던 중 흥미로운 주제가 있어서 정리하는겸, 포스팅을 작성 해 본다. 1. 서론 OpenAI 팀은 Weak-to-strong generalization 이라는 제목으로 짧은 글을 작성했다. 해당 글에선, '인간의 피드백(RLHF)' 을 통한 강화 학습과 같은 현재의 정렬 방법은 '인간의 감독' 에 의존한다는 문제점이 존재한다고 언급한다. 이러한 인간의 감독은 비용적, 시간적인 문제가 존재하며, 근래에는 오히려 AI 시스템이 인간을 상회하는 복잡하고 창의적인 행동을 수행해 낼 수 있다고 주장한다. (= AI 시스템이 AI를 감독할 수 있다) 예로 초인적(superhuman) 모델(그냥 매우 발전된 모델을 이렇게 표현한듯 싶다) 은 전문가들조차 이해하기 어려운 수백만줄의 참신한(비록..

[리뷰] GAN(Generative Adversarial Networks)

2023.11.23· AI/Article

이전 GAN 포스팅에서는 GAN을 구현하고 어떤식으로 동작하는지 직관적으로 살펴 보았다면, 이번 포스팅은 Ian Goodfellow 가 작성한 GAN 논문을 요약해 살펴보고자 한다. 1. 수식 $$\min_G \max_D V(D,G) = \mathbb{E}_{x\sim p(data)} [\log(D(X))] + \mathbb{E}_{z\sim p(z)}[\log(1- D(G(Z))]$$ 각 기호의 의미는 아래와 같다. ${\min\limits_G \max\limits_D}$ : 생성기 $G$는 손실함수를 최소화해야 하는 반면, 판별자 $D$는 손실함수를 최대화 해야 한다는 의미이다. $V(D,G)$ : 최종적으로 도출해야하는 목적함수이다. $\mathbb{E}_{x\sim p(data)} [\log(D(..

[리뷰] wav2vec 2.0

2023.08.21· AI/Article

1. 서론 wav2vec 2.0 은 2020년 Facebook AI 에서 발표한 논문으로서 음성변환 / TTS / ASR 분야에서 라벨링된 데이터가 많이 존재하지 않을 경우에도 성능을 극적으로 끌어올릴 수 있는 기술(wav2vec 2.0) 을 제안하는 논문이다. 이전 StarGANv2-VC 논문 리뷰에서도 살펴볼 수 있듯, 이러한 음성 변환/생성 기술에는 기본적으로 라벨링된 데이터를 통해 데이터를 학습하는 과정이 필요하다. StarGANv2-VC 에서는 ASR모델을 통해 간접적으로 음성변환 모델을 학습 하는데 사용한다. 실제로 StarGANv2-VC 논문에 사용되는 ASR 모델을 학습하는 코드를 보면, 관련되어 이미 Transcript 된 파일을 하나 확인할 수 있다. 코드를 훑어보니 이 ASR 학습 모..

[리뷰] StarGANv2-VC

2023.07.29· AI/Article

1. 서론 StarGANv2-VC 는 기존 StarGANv2 논문 기반하에 제작된 비병렬 음성 데이터의 다대다 Conversion 모델이다. 기존 StarGAN 이 '이미지' 를 대상으로 했다면 해당 논문은 '음성' 에 촛점을 맞춘것이 특징적이다. 만약 고전적인 음성 변환을 수행하려면 같은 Content 를 가진 Source 음성과 Target 음성 두 데이터가 모두 필요하다고 추측할 수 있다. 하지만 이 StarGANv2-VC 모델을 통해 음성을 학습시킨다면, 'Target' 데이터를 학습시킨 신경망을 Base로 Source 음성을 바꿔가면서 변경할 수 있다. 즉 '비병렬' 데이터만 있어도 유의미하게 데이터를 변환할 수 있다. 개인적으로 이 논문을 읽기까지 꽤 많은 배경조사를 진행했는데, 현재 2023..

티스토리툴바