'Artificial Intelligence' 카테고리의 글 목록

해당 포스팅은 PC 환경에 최적화 되어 있습니다. DeepSeek 라는 중국의 스타트업에서 만든 V3 모델은, OpenAI의 4o 모델에 대응되는 모델로서, 그 성능이 4o와 유사하면서, 추론 비용이 압도적으로 저렴하기에 현재 AI 커뮤니티에서 큰 파장을 불러일으키고 있다.논문의 Abstract 란에서 바로 벤치마크를 살펴볼 수 있다. Transformer 모델인 만큼 전반적인 벤치마크 수준은 o1, R1 모델 대비 낮지만, 벤치로 식별하기 어려운 창의적인 대화에서는 더 높은 성능을 보여준다. 1. 소개최근 몇년간 LLM 모델은 진화를 거듭하면서 AGI에 다가가고 있다. 대표적으로 ChatGPT, Claude, LLaMA, Qwen 등을 꼽을 수 있다. 이러한 변화의 물결에 올라, DeepSeek 사는 ..

최근 DeepSeek 라는 중국 스타트업에서 제작한 LLM 모델이 뛰어난 성능으로 AI 업계에서 화두가 되고 있다. 해당 업체에서 만든 모델은 대표적으로 `R1` 모델과 `V3` 모델이 존재하는데, `V3` 모델의 경우 ChatGPT, Qwen, LLaMA 와 같은 일반적인 `Transformer` 기반의 LLM 모델이다.반면 `R1` 모델은 논문의 제목을 보면 알 수 있듯 `Reinforcement Learning`을 기반으로 제작된 모델로, 해당 포스팅에서는 `R1` 모델과, 논문에 관해서 간략히 포스팅 하겠다. 1. 서론강화학습을 LLM에 적용하자는 계념을 DeepSeek 사가 최초로 제안한것은 아니다. 최근 ChatGPT의 유료버전을 사용해 보았다면 `o1` 모델이 활성화 된 것을 확인할 수 있었..

이전 포스팅을 통해 `RX6800 + WSL2 + ROCm` 의 작동불가를 확인했다.하지만 몇몇 포스팅들을 참고한 결과 네이티브한 Ubuntu 환경에서 작동함을 확인하였고직접 Ubuntu 24.04를 설치하여 실제 ROCm을 구동해 보았다. 이번 포스팅에서는 ROCm을 통해 `RX6800` 의 Pytorch 신경망 처리와Colab 에서 운용되는 `Tesla T4` GPU 간의 연산성능차이를 비교해 보고자 한다.참고로 `Tesla T4` 의 성능은 내 체감상 `RTX 3070` 대비 약 30% 정도 더 느린 속도를 보여준다. 1. 신경망 벤치.소스코드는 워낙 풀려있는게 많기에 GPT o1을 통해서 생성해 줬다.검토해 봐도 큰문제가 없어 보이기에 그대로 사용하였다.Code.pyimport torchimpo..

해당논문은 LLM모델의 양자화와 성능의 상관관계에 대해서 기술한 논문으로, 최근 ollama 와 같은 local LLM 실행을 편리하게 도와줄 수 있는 기술들이 많이 등장한 가운데에 주목할만한 논문이다.만약 양자화에 대해서 잘 모른다면 아래 포스팅을 참고하길 바란다. [LLM] 양자화 기술양자화는 모델의 가중치와 활성화를 고정밀도 데이터 표현(F32)에서 저정밀도 데이터 표현으로 변환하는 모델 압축 기술쉽게 말해 복잡한 정보를 저장할 수 있는 데이터 유형에서 더 적은 정보velog.io 포스팅에 앞서해당 논문에 관심을 가지게 된 계기는 ollama에 배포된 대부분의 LLM 모델들이 4bit 양자화를 채택하고 있기 때문이다.4bit이면 상당히 낮은 bit의 양자화 수준이라고 할 수 있다. 32bit : 양..

해당 논문은 Alibaba Group 내 Alibaba Cloud 가 구축한 Open LLM 인 Qwen 의 기술 리포트 이다.이 모델에 관심을 가지게 된 계기는 몇몇 중국 기업, 특히 알리바바에 관심이 있어서가 첫째이고,최근 나온 Qwen 2.0 의 성능이 GPT 4 에 근접한 성능지표를 보여주었기 때문이다. 실제로 모델을 사용 해 보았을 때 한국어 기준 LLaMA3 보다 더 우수하다고 느꼇다.더 과감하게 발언하자면,24년 6월 기준 모든 Open LLM 기준, Qwen 2.0 의 성능이 가장 우수하다.모든 LLM 으로 범위를 넓히면, Qwen 2.0 보다 더 우수한 성능을 보유하다고 느낀 모델은 GPT-4o 가 유일하다. 참고로 해당 논문은 Qwen 2.0 모델에 관해 설명하는것이 아닌,시초가 된 Q..

Attention Is All You Need 는 Transformer 기술을 소개하는 논문으로서, 이전에 한차례 리뷰한 바가 있다.이 중 CrossAttention 에 대한 한국어 포스팅이 많지 않아보여 작성해본다.Transformer 는 Translation, VC, STT, TTS등 시계열 데이터를 처리하는데에 있어 사용할 수 있다. 즉 Decoder 의 출력은 Text 가 될수도 있고, Mel Spectrogram 형태가 될수도 있으며, 아마 '영상' 쪽으로도 출력을 내는게 가능할 것이다. (여기서는 번역을 기준으로 작성하겠다.)붉은박스로 표시한 CrossAttention 은 좌측의 Encoder 단에서 나오는 출력이, 우측의 Decoder 단으로 들어가는 구조이다. 먼저 코드를 살펴보자. So..

이전 포스팅의 주제인 AdaLoRA 는 행렬에 대해 잘 알지 못하면 그 원리를 근본까지 이해하기 힘든 구성을 지니고 있다. 최종적으로 이해는 했지만 이를 정리해 두지 않으면 한달만 지나면 다 까먹을 것이기 때문에 기록해 둔다.행렬역행렬전치행렬대칭행렬항등행렬(단위행렬)대각행렬직교행렬및 행렬연산 특성에 관해서 설명한다. 1. 행렬(matrix)$$\begin{equation} \begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \\ \end{bmatrix} \end{equation}$$행렬에 관해서 모르는 사람은 없으리라 본다. Excel 을 다뤄본 ..

해당 논문은 LoRA 를 개선한 버전인 AdaLoRA 에 대해 제안하는 논문이다. 1. 서론기존 Full Fine-Tuning, LoRA 는 NLP 에서 중요한 패러다임이 되었으나, 일반적으로 '모든' parameter 를 미세 조정하기에 최적의 조정을 수행할 수 없다는 단점이 있다.이러한 문제를 해결하기 위해 가중치 행렬 간 parameter 자원(budget) 을 중요도 점수에 따라 적응적으로 할당하는 AdaLoRA 를 제안한다. 특히 AdaLoRa 는 특이값 분해(Singular Value Decomposition, SVD)의 형태로 증분 업데이트를 parameter 화 한다. 이러한 접근 방식을 통해 중요하지 않은 업데이트의 특이값을 효과적으로 가지치기할 수 있으며, 이는 본질적으로 paramet..

1. 서론자연어 처리는 시간이 가면 갈수록 중요해지고 있다. Text to Speech, Speech to Text, Translation, GPT 에 이르기까지 그 발전 가능성은 무궁무진 하다. 특히 핵심적인 혁신은 모델 자체를 수정하는 데에서 오는 경우가 많지만, 그럼에도 불구하고 fine-tuning 은 중요하다.하지만 모델의 사이즈가 점점 커져감에 따라 전체 fine-tuning은 매우 버거운 작업이 되었다. 예로 GPT-3 의 한 모델은 175B 개의 parameter가 존재하는데, 이런 무지막지한 모델을 fine-tuning 하는것은 어지간한 대규모 연구소 수준이 아니면 버거운 일이다.때문에 저자들은 pre-trainied 모델의 가중치를 'freeze' 하고 transformer 아키텍처의 ..

모델을 훈련할때 평가과정은 보통 epoch 로 진행하는데, 간혹 특정 예제들은 steps 로 진행되기도 한다. 예로 Seq2SeqTrainingArguments 의 설정 옵션을 살펴보면 evaluation_strategy (str or IntervalStrategy, optional, defaults to "no") - The evaluation strategy to adopt during training. Possible values are: "no": No evaluation is done during training. "steps": Evaluation is done (and logged) every eval_steps. "epoch": Evaluation is done at the end of e..

티스토리툴바