Artificial Intelligence

1. 서론 StarGANv2-VC 는 기존 StarGANv2 논문 기반하에 제작된 비병렬 음성 데이터의 다대다 Conversion 모델이다. 기존 StarGAN 이 '이미지' 를 대상으로 했다면 해당 논문은 '음성' 에 촛점을 맞춘것이 특징적이다. 만약 고전적인 음성 변환을 수행하려면 같은 Content 를 가진 Source 음성과 Target 음성 두 데이터가 모두 필요하다고 추측할 수 있다. 하지만 이 StarGANv2-VC 모델을 통해 음성을 학습시킨다면, 'Target' 데이터를 학습시킨 신경망을 Base로 Source 음성을 바꿔가면서 변경할 수 있다. 즉 '비병렬' 데이터만 있어도 유의미하게 데이터를 변환할 수 있다. 개인적으로 이 논문을 읽기까지 꽤 많은 배경조사를 진행했는데, 현재 2023..
Style-Based GAN 논문은 이전에 리뷰한 논문들보다 어려운 계념들을 담고 있어서 리뷰를 하지 않으려고 했지만, 현재까지의 GAN 기술의 기초를 완성시키는 의미가 있는 논문이기에 이전 GAN 시리즈와 함께 리뷰를 완성하려고 한다. 1. Style-Based GAN 이란? Styly GAN 이 무엇인지는 위 동영상으로 깔끔하게 정리된다. The new architecture leads to an automatically learned, unsupervised separation of high-level attributes (e.g., pose and identity when trained on human faces) and stochastic variation in the generated imag..
해당 포스팅에서는 PGGAN 논문에 대해서 간단히 살펴보도록 한다. 이번 포스팅에선 불필요한 내용에 대한 리뷰 및 코드 구현은 생략하도록 하겠다. 저번 Attention 논문 리뷰처럼 상세하게 훑고 넘어간다면 포스팅 하나 작성하는 데에만 3주 가까이 소요될 것이기 때문에, 최대한 간결하게 핵심적인 부분만 짚고 넘어가도록 하겠다. 1. 서론 우리는 이전 GAN 포스팅에서 데이터로 된 숫자를, 28 x 28 이미지 숫자로 바꾸는 예제를 진행했었다. 결과를 보면 100% 만족스럽지는 않지만 꽤나 유의미한 데이터들을 많이 추출할 수 있었다. 추가로 이전 Conditional GAN 포스팅을 통해서 이미지를 Class 별로 조정하여 보다 정확한 이미지를 추출할 수 있었다. 이제 이것들을 배경으로 아래 내용들을 살..
아래 두 포스팅을 통해 GAN이 무엇인지 알아 보았다. GAN이란? (이미지 숫자 생성) GAN은 Generative Adversarial Networks라는 의미로서, 한국어로 번역하면 '생성적 적대 신경망' 정도로 번역할 수 있겠다. 현재로서 활발히 많이 이용되는 알고리즘은 대부분이 '지도학습' 부류로 CNN을 활 cypsw.tistory.com CGAN(Conditional GAN) 1. CGAN 이란? 이전 포스팅에서 GAN이 무엇인지, 그 개념과 간단히 코드를 작성해 보았다. 이번 포스팅의 주제는 CGAN 이다. 이전 포스팅에서는 0~9 까지의 숫자를 임의로 랜덤하게 생성하는 Generator( cypsw.tistory.com 지금까지 과정을 지켜봤다면 의문점이 있을것이다. GAN은 여타 다른 ..
1. CGAN 이란? 이전 포스팅에서 GAN이 무엇인지, 그 개념과 간단히 코드를 작성해 보았다. 이번 포스팅의 주제는 CGAN 이다. 이전 포스팅에서는 0~9 까지의 숫자를 임의로 랜덤하게 생성하는 Generator(생성기) 와 Discriminator(판별기) 를 생성하여 간단하게 GAN 모델을 구현해 보았다. 그런데 문제는 우리가 생성하는 데이터를 '지정' 할 수 없었다는 점이다. 즉, 숫자 '3' 만 출력하는 Generator 를 제작하는 것은 이전 포스팅만 보고는 불가능한 일이다. 때문에 해당 포스팅에서는 '특정한' 클래스를 훈련시킬 수 있는 Conditional(조건부) GAN 에 대해서 포스팅 하고자 한다. 2. CGAN 만들기 우리는 이전 포스팅에서 사용했던 파일을 이용해 조금의 수정만 거..
GAN은 Generative Adversarial Networks라는 의미로서, 한국어로 번역하면 '생성적 적대 신경망' 정도로 번역할 수 있겠다. 현재로서 활발히 많이 이용되는 알고리즘은 대부분이 '지도학습' 부류로 CNN을 활용한 Object Detection, LSTM 및 Transformer 를 활용한 번역문제가 있고, 강화학습의 경우 자율주행 분야 및 로봇 제어 분야에서 사용되고 있으나, 유독 '비지도 학습' 의 경우 마땅히 시각적으로 보여줄만한 결과가 없었다. 하지만 2014년 GAN 모델이 출시되고 나서는 얘기가 좀 달라졌는데, Stable Diffusion 을 비롯한 GAN 의 자식 모델들이 '이미지 생성' 영역에서 큰 역할을 하고 있기 때문이다. 위 이미지들은 모두 stability.ai..
해당 포스팅을 보기 전에 MDP 포스팅을 보길 권장한다. 벨만 방정식은 주어진 정책 $\pi$ 의 벨류를 구하기 위해서 사용되며 현재 시점($t$)와 다음 시점($t+1$) 사이의 재귀적 관계를 이용해 정의된다. 이 방정식에는 '기대' 방정식과, '최적' 방정식 두 가지가 존재하므로 둘 모두를 설명한다. 1. 벨만 기대 방정식 벨만 기대 방정식은 아래와 같이 나타낼 수 있다. $$ \begin{flalign} v_{\pi} &= \mathbb{E}_{\pi}[r_{t+1} + \gamma v_{\pi}(s_{t+1}) \\ \\ &= \mathbb{E}_{\pi}[G_{t}] \\ &= \mathbb{E}_{\pi}[r_{t+1} + \gamma r_{t+2} + \gamma^{2} r_{t+3} + \..
마르코프 결정 프로세스(이하 MDP)는 의사결정 과정을 모델링하는 수학적인 틀을 제공하며 아래와 같은 요소로 구성된다. $$ MDP \equiv (S, A, P, R, \gamma) $$ S : 상태의 집합 A : 액션의 집합 P : 전이 확률 행렬 (상태 $s$에서 $s'$으로 갈 확률을 행렬의 형태로 표현한 것) R : 보상 함수 $\gamma$ : 감쇠인자 $\gamma$는 미래에 얻을 보상에 비해 당장 얻을 보상을 얼마나 더 중요하게 여길 것인가를 나타내는 파라미터이다. (따라서 0~1 사이의 값을 지님.) 위에 정의나, 약어들이 꽤나 어렵게 보일테지만 전혀 어렵지 않다. 아래 예시를 보며 각 변수가 어떻게 동작하는지 간단히 살펴보자. 해당 MDP는 어머니 Agent가 아이를 재우는 목적을 지녔다..
Attention Is All You Need는 실제 구글 번역기에 적용된 'Transformer' 기술을 소개하는 논문이다. BERT 나 ChatGPT 역시 transformer 모델을 기반으로 변형한 모델을 만들어 사용 있고, 현재 가장 진보된 번역모델로 알려진 NLLB-200 역시 transformer 모델을 기반으로 하고 있기에 시계열 데이터를 처리함에 있어 매우 중요한 논문이라고 할 수 있다. 때문에 해당 논문을 자세히 분석해 보고자 포스팅을 작성한다. 1. Introduce & Background 기존에 시계열 데이터를 처리하는 방식은 recurrence 계열의 RNN - LSTM - GRU기술이 있다. 하지만 이 기술들은 하나씩 문제점을 가지고 있다. 그 중 공통적으로 가지고 있는 문제점은 ..
구글이 번역기에 적용한 것으로 유명한 인공신경망 트랜스포머(transformer)모델에서 핵심적인 개념은 어텐션(Attention) 이다. 말 그대로 주목이라는 의미를 가지는 이 기법은 입력데이터의 특정 부분에 집중하여 해당 부분이 더 중요하게 반영되도록 하는 방법을 통칭한다. 해당 포스팅은 번역을 어떻게 어텐션 + LTSM 을 통해서 수행하는가를 예제로, 어텐션의 정의에 대해 살펴본다. 1. Seq2Seq 사이토 고키 저자의 밑바닥부터 시작하는 딥러닝 2 도서에서는 seq2seq 모델을 개선하기 위해서 어텐션을 사용한다. 따라서 어텐션에 대해 설명하기 전에 이 seq2seq 에 대해서 간략하게 설명하고 진행하겠다. seq2seq은 번역작업에 많이 사용되었던 모델로서, RNN을 기반으로 한다. seq2s..
Cyp
'Artificial Intelligence' 카테고리의 글 목록 (3 Page)