[리뷰] GAN(Generative Adversarial Networks)
·
Artificial Intelligence/Article
이전 GAN 포스팅에서는 GAN을 구현하고 어떤식으로 동작하는지 직관적으로 살펴 보았다면, 이번 포스팅은 Ian Goodfellow 가 작성한 GAN 논문을 요약해 살펴보고자 한다. 1. 수식 $$\min_G \max_D V(D,G) = \mathbb{E}_{x\sim p(data)} [\log(D(X))] + \mathbb{E}_{z\sim p(z)}[\log(1- D(G(Z))]$$ 각 기호의 의미는 아래와 같다. ${\min\limits_G \max\limits_D}$ : 생성기 $G$는 손실함수를 최소화해야 하는 반면, 판별자 $D$는 손실함수를 최대화 해야 한다는 의미이다. $V(D,G)$ : 최종적으로 도출해야하는 목적함수이다. $\mathbb{E}_{x\sim p(data)} [\log(D(..
[리뷰] wav2vec 2.0
·
Artificial Intelligence/Article
1. 서론 wav2vec 2.0 은 2020년 Facebook AI 에서 발표한 논문으로서 음성변환 / TTS / ASR 분야에서 라벨링된 데이터가 많이 존재하지 않을 경우에도 성능을 극적으로 끌어올릴 수 있는 기술(wav2vec 2.0) 을 제안하는 논문이다. 이전 StarGANv2-VC 논문 리뷰에서도 살펴볼 수 있듯, 이러한 음성 변환/생성 기술에는 기본적으로 라벨링된 데이터를 통해 데이터를 학습하는 과정이 필요하다. StarGANv2-VC 에서는 ASR모델을 통해 간접적으로 음성변환 모델을 학습 하는데 사용한다. 실제로 StarGANv2-VC 논문에 사용되는 ASR 모델을 학습하는 코드를 보면, 관련되어 이미 Transcript 된 파일을 하나 확인할 수 있다. 코드를 훑어보니 이 ASR 학습 모..
[리뷰] StarGANv2-VC
·
Artificial Intelligence/Article
1. 서론 StarGANv2-VC 는 기존 StarGANv2 논문 기반하에 제작된 비병렬 음성 데이터의 다대다 Conversion 모델이다. 기존 StarGAN 이 '이미지' 를 대상으로 했다면 해당 논문은 '음성' 에 촛점을 맞춘것이 특징적이다. 만약 고전적인 음성 변환을 수행하려면 같은 Content 를 가진 Source 음성과 Target 음성 두 데이터가 모두 필요하다고 추측할 수 있다. 하지만 이 StarGANv2-VC 모델을 통해 음성을 학습시킨다면, 'Target' 데이터를 학습시킨 신경망을 Base로 Source 음성을 바꿔가면서 변경할 수 있다. 즉 '비병렬' 데이터만 있어도 유의미하게 데이터를 변환할 수 있다. 개인적으로 이 논문을 읽기까지 꽤 많은 배경조사를 진행했는데, 현재 2023..
[리뷰] Style-Based GAN
·
Artificial Intelligence/Article
Style-Based GAN 논문은 이전에 리뷰한 논문들보다 어려운 계념들을 담고 있어서 리뷰를 하지 않으려고 했지만, 현재까지의 GAN 기술의 기초를 완성시키는 의미가 있는 논문이기에 이전 GAN 시리즈와 함께 리뷰를 완성하려고 한다. 1. Style-Based GAN 이란? Styly GAN 이 무엇인지는 위 동영상으로 깔끔하게 정리된다. The new architecture leads to an automatically learned, unsupervised separation of high-level attributes (e.g., pose and identity when trained on human faces) and stochastic variation in the generated imag..
[리뷰] PGGAN(Progressive Growing of GANs)
·
Artificial Intelligence/Article
해당 포스팅에서는 PGGAN 논문에 대해서 간단히 살펴보도록 한다. 이번 포스팅에선 불필요한 내용에 대한 리뷰 및 코드 구현은 생략하도록 하겠다. 저번 Attention 논문 리뷰처럼 상세하게 훑고 넘어간다면 포스팅 하나 작성하는 데에만 3주 가까이 소요될 것이기 때문에, 최대한 간결하게 핵심적인 부분만 짚고 넘어가도록 하겠다. 1. 서론 우리는 이전 GAN 포스팅에서 데이터로 된 숫자를, 28 x 28 이미지 숫자로 바꾸는 예제를 진행했었다. 결과를 보면 100% 만족스럽지는 않지만 꽤나 유의미한 데이터들을 많이 추출할 수 있었다. 추가로 이전 Conditional GAN 포스팅을 통해서 이미지를 Class 별로 조정하여 보다 정확한 이미지를 추출할 수 있었다. 이제 이것들을 배경으로 아래 내용들을 살..
GAN의 최적 손실값
·
Artificial Intelligence/Basic
아래 두 포스팅을 통해 GAN이 무엇인지 알아 보았다. GAN이란? (이미지 숫자 생성)GAN은 Generative Adversarial Networks라는 의미로서, 한국어로 번역하면 '생성적 적대 신경망' 정도로 번역할 수 있겠다. 현재로서 활발히 많이 이용되는 알고리즘은 대부분이 '지도학습' 부류로 CNN을 활cypsw.tistory.com CGAN(Conditional GAN)1. CGAN 이란? 이전 포스팅에서 GAN이 무엇인지, 그 개념과 간단히 코드를 작성해 보았다. 이번 포스팅의 주제는 CGAN 이다. 이전 포스팅에서는 0~9 까지의 숫자를 임의로 랜덤하게 생성하는 Generator(cypsw.tistory.com지금까지 과정을 지켜봤다면 의문점이 있을것이다. GAN은 여타 다른 CNN, ..
CGAN(Conditional GAN)
·
Artificial Intelligence/Basic
1. CGAN 이란? 이전 포스팅에서 GAN이 무엇인지, 그 개념과 간단히 코드를 작성해 보았다. 이번 포스팅의 주제는 CGAN 이다. 이전 포스팅에서는 0~9 까지의 숫자를 임의로 랜덤하게 생성하는 Generator(생성기) 와 Discriminator(판별기) 를 생성하여 간단하게 GAN 모델을 구현해 보았다. 그런데 문제는 우리가 생성하는 데이터를 '지정' 할 수 없었다는 점이다. 즉, 숫자 '3' 만 출력하는 Generator 를 제작하는 것은 이전 포스팅만 보고는 불가능한 일이다. 때문에 해당 포스팅에서는 '특정한' 클래스를 훈련시킬 수 있는 Conditional(조건부) GAN 에 대해서 포스팅 하고자 한다. 2. CGAN 만들기 우리는 이전 포스팅에서 사용했던 파일을 이용해 조금의 수정만 거..
GAN이란? (이미지 숫자 생성)
·
Artificial Intelligence/Basic
GAN은 Generative Adversarial Networks라는 의미로서, 한국어로 번역하면 '생성적 적대 신경망' 정도로 번역할 수 있겠다. 현재로서 활발히 많이 이용되는 알고리즘은 대부분이 '지도학습' 부류로 CNN을 활용한 Object Detection, LSTM 및 Transformer 를 활용한 번역문제가 있고, 강화학습의 경우 자율주행 분야 및 로봇 제어 분야에서 사용되고 있으나, 유독 '비지도 학습' 의 경우 마땅히 시각적으로 보여줄만한 결과가 없었다. 하지만 2014년 GAN 모델이 출시되고 나서는 얘기가 좀 달라졌는데, Stable Diffusion 을 비롯한 GAN 의 자식 모델들이 '이미지 생성' 영역에서 큰 역할을 하고 있기 때문이다. 위 이미지들은 모두 stability.ai..
벨만 방정식(Bellman Equation)
·
Artificial Intelligence/Basic
해당 포스팅을 보기 전에 MDP 포스팅을 보길 권장한다. 벨만 방정식은 주어진 정책 $\pi$ 의 벨류를 구하기 위해서 사용되며 현재 시점($t$)와 다음 시점($t+1$) 사이의 재귀적 관계를 이용해 정의된다. 이 방정식에는 '기대' 방정식과, '최적' 방정식 두 가지가 존재하므로 둘 모두를 설명한다. 1. 벨만 기대 방정식 벨만 기대 방정식은 아래와 같이 나타낼 수 있다. $$ \begin{flalign} v_{\pi} &= \mathbb{E}_{\pi}[r_{t+1} + \gamma v_{\pi}(s_{t+1}) \\ \\ &= \mathbb{E}_{\pi}[G_{t}] \\ &= \mathbb{E}_{\pi}[r_{t+1} + \gamma r_{t+2} + \gamma^{2} r_{t+3} + \..
마르코프 결정 프로세스(Markov Decision Process)
·
Artificial Intelligence/Basic
마르코프 결정 프로세스(이하 MDP)는 의사결정 과정을 모델링하는 수학적인 틀을 제공하며 아래와 같은 요소로 구성된다. $$ MDP \equiv (S, A, P, R, \gamma) $$ S : 상태의 집합 A : 액션의 집합 P : 전이 확률 행렬 (상태 $s$에서 $s'$으로 갈 확률을 행렬의 형태로 표현한 것) R : 보상 함수 $\gamma$ : 감쇠인자 $\gamma$는 미래에 얻을 보상에 비해 당장 얻을 보상을 얼마나 더 중요하게 여길 것인가를 나타내는 파라미터이다. (따라서 0~1 사이의 값을 지님.) 위에 정의나, 약어들이 꽤나 어렵게 보일테지만 전혀 어렵지 않다. 아래 예시를 보며 각 변수가 어떻게 동작하는지 간단히 살펴보자. 해당 MDP는 어머니 Agent가 아이를 재우는 목적을 지녔다..