'Artificial Intelligence' 카테고리의 글 목록 (3 Page)

도커를 사용하여 Tensorflow 저장소를 정리하고, 다시 Container 를 만들던 도중 이러한 오류를 만났다. 나는 아래와 같은 과정을 통해 오류를 해결했다. 1. Systemd 활성화 Enable Systemd in WSL 2 I am attempting to debug some C# / .NET 5 code in WSL 2 with Ubuntu on Windows. I have WSL 2 setup with Windows 10 and want to test out creating a Systemd service. Unfortunately, it appears Systemd... stackoverflow.com 기본적으로 WSL2 를 최신 버전으로 업데이트 하길 권장하며, 위 글의 옵션 1 절차..

OpenAI 사이트를 뒤져보던 중 흥미로운 주제가 있어서 정리하는겸, 포스팅을 작성 해 본다. 1. 서론 OpenAI 팀은 Weak-to-strong generalization 이라는 제목으로 짧은 글을 작성했다. 해당 글에선, '인간의 피드백(RLHF)' 을 통한 강화 학습과 같은 현재의 정렬 방법은 '인간의 감독' 에 의존한다는 문제점이 존재한다고 언급한다. 이러한 인간의 감독은 비용적, 시간적인 문제가 존재하며, 근래에는 오히려 AI 시스템이 인간을 상회하는 복잡하고 창의적인 행동을 수행해 낼 수 있다고 주장한다. (= AI 시스템이 AI를 감독할 수 있다) 예로 초인적(superhuman) 모델(그냥 매우 발전된 모델을 이렇게 표현한듯 싶다) 은 전문가들조차 이해하기 어려운 수백만줄의 참신한(비록..

이전 GAN 포스팅에서는 GAN을 구현하고 어떤식으로 동작하는지 직관적으로 살펴 보았다면, 이번 포스팅은 Ian Goodfellow 가 작성한 GAN 논문을 요약해 살펴보고자 한다.1. 수식$$\min_G \max_D V(D,G) = \mathbb{E}_{x\sim p(data)} [\log(D(X))] + \mathbb{E}_{z\sim p(z)}[\log(1- D(G(Z))]$$ 각 기호의 의미는 아래와 같다.${\min\limits_G \max\limits_D}$ : 생성기 $G$는 손실함수를 최소화해야 하는 반면, 판별자 $D$는 손실함수를 최대화 해야 한다는 의미이다.$V(D,G)$ : 최종적으로 도출해야하는 목적함수이다.$\mathbb{E}_{x\sim p(data)} [\log(D(X))]..

1. 서론 wav2vec 2.0 은 2020년 Facebook AI 에서 발표한 논문으로서 음성변환 / TTS / ASR 분야에서 라벨링된 데이터가 많이 존재하지 않을 경우에도 성능을 극적으로 끌어올릴 수 있는 기술(wav2vec 2.0) 을 제안하는 논문이다. 이전 StarGANv2-VC 논문 리뷰에서도 살펴볼 수 있듯, 이러한 음성 변환/생성 기술에는 기본적으로 라벨링된 데이터를 통해 데이터를 학습하는 과정이 필요하다. StarGANv2-VC 에서는 ASR모델을 통해 간접적으로 음성변환 모델을 학습 하는데 사용한다. 실제로 StarGANv2-VC 논문에 사용되는 ASR 모델을 학습하는 코드를 보면, 관련되어 이미 Transcript 된 파일을 하나 확인할 수 있다. 코드를 훑어보니 이 ASR 학습 모..

1. 서론 StarGANv2-VC 는 기존 StarGANv2 논문 기반하에 제작된 비병렬 음성 데이터의 다대다 Conversion 모델이다. 기존 StarGAN 이 '이미지' 를 대상으로 했다면 해당 논문은 '음성' 에 촛점을 맞춘것이 특징적이다. 만약 고전적인 음성 변환을 수행하려면 같은 Content 를 가진 Source 음성과 Target 음성 두 데이터가 모두 필요하다고 추측할 수 있다. 하지만 이 StarGANv2-VC 모델을 통해 음성을 학습시킨다면, 'Target' 데이터를 학습시킨 신경망을 Base로 Source 음성을 바꿔가면서 변경할 수 있다. 즉 '비병렬' 데이터만 있어도 유의미하게 데이터를 변환할 수 있다. 개인적으로 이 논문을 읽기까지 꽤 많은 배경조사를 진행했는데, 현재 2023..

Style-Based GAN 논문은 이전에 리뷰한 논문들보다 어려운 계념들을 담고 있어서 리뷰를 하지 않으려고 했지만, 현재까지의 GAN 기술의 기초를 완성시키는 의미가 있는 논문이기에 이전 GAN 시리즈와 함께 리뷰를 완성하려고 한다. 1. Style-Based GAN 이란? Styly GAN 이 무엇인지는 위 동영상으로 깔끔하게 정리된다. The new architecture leads to an automatically learned, unsupervised separation of high-level attributes (e.g., pose and identity when trained on human faces) and stochastic variation in the generated imag..

해당 포스팅에서는 PGGAN 논문에 대해서 간단히 살펴보도록 한다.이번 포스팅에선 불필요한 내용에 대한 리뷰 및 코드 구현은 생략하도록 하겠다. 저번 Attention 논문 리뷰처럼 상세하게 훑고 넘어간다면 포스팅 하나 작성하는 데에만 3주 가까이 소요될 것이기 때문에, 최대한 간결하게 핵심적인 부분만 짚고 넘어가도록 하겠다. 1. 서론우리는 이전 GAN 포스팅에서 데이터로 된 숫자를, 28 x 28 이미지 숫자로 바꾸는 예제를 진행했었다.결과를 보면 100% 만족스럽지는 않지만 꽤나 유의미한 데이터들을 많이 추출할 수 있었다. 추가로 이전 Conditional GAN 포스팅을 통해서 이미지를 Class 별로 조정하여 보다 정확한 이미지를 추출할 수 있었다. 이제 이것들을 배경으로 아래 내용들을 살펴보자..

아래 두 포스팅을 통해 GAN이 무엇인지 알아 보았다. GAN이란? (이미지 숫자 생성)GAN은 Generative Adversarial Networks라는 의미로서, 한국어로 번역하면 '생성적 적대 신경망' 정도로 번역할 수 있겠다. 현재로서 활발히 많이 이용되는 알고리즘은 대부분이 '지도학습' 부류로 CNN을 활cypsw.tistory.com CGAN(Conditional GAN)1. CGAN 이란? 이전 포스팅에서 GAN이 무엇인지, 그 개념과 간단히 코드를 작성해 보았다. 이번 포스팅의 주제는 CGAN 이다. 이전 포스팅에서는 0~9 까지의 숫자를 임의로 랜덤하게 생성하는 Generator(cypsw.tistory.com지금까지 과정을 지켜봤다면 의문점이 있을것이다. GAN은 여타 다른 CNN, ..

1. CGAN 이란? 이전 포스팅에서 GAN이 무엇인지, 그 개념과 간단히 코드를 작성해 보았다. 이번 포스팅의 주제는 CGAN 이다. 이전 포스팅에서는 0~9 까지의 숫자를 임의로 랜덤하게 생성하는 Generator(생성기) 와 Discriminator(판별기) 를 생성하여 간단하게 GAN 모델을 구현해 보았다. 그런데 문제는 우리가 생성하는 데이터를 '지정' 할 수 없었다는 점이다. 즉, 숫자 '3' 만 출력하는 Generator 를 제작하는 것은 이전 포스팅만 보고는 불가능한 일이다. 때문에 해당 포스팅에서는 '특정한' 클래스를 훈련시킬 수 있는 Conditional(조건부) GAN 에 대해서 포스팅 하고자 한다. 2. CGAN 만들기 우리는 이전 포스팅에서 사용했던 파일을 이용해 조금의 수정만 거..

GAN은 Generative Adversarial Networks라는 의미로서, 한국어로 번역하면 '생성적 적대 신경망' 정도로 번역할 수 있겠다. 현재로서 활발히 많이 이용되는 알고리즘은 대부분이 '지도학습' 부류로 CNN을 활용한 Object Detection, LSTM 및 Transformer 를 활용한 번역문제가 있고, 강화학습의 경우 자율주행 분야 및 로봇 제어 분야에서 사용되고 있으나, 유독 '비지도 학습' 의 경우 마땅히 시각적으로 보여줄만한 결과가 없었다. 하지만 2014년 GAN 모델이 출시되고 나서는 얘기가 좀 달라졌는데, Stable Diffusion 을 비롯한 GAN 의 자식 모델들이 '이미지 생성' 영역에서 큰 역할을 하고 있기 때문이다. 위 이미지들은 모두 stability.ai..

티스토리툴바