[리뷰] RAPTOR: RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL
·
Artificial Intelligence/Paper Review
LLM은 만능 도구처럼 보이지만 실제로는 여러 가지 제약이 존재한다. 그중 대표적인 것이 컨텍스트 길이(Context Length)의 제한이다. 현재 상용화된 최고 수준의 LLM이라 할지라도 RoPE(Rotary Positional Embedding)를 적용한 상태에서 100만 토큰을 겨우 달성하는것이 한계이다. 그 이상의 길이를 입력할 경우 답변의 품질이 급격히 저하되기에, Qwen3 나 MiniMax-M1 같은 최신 모델들조차 컨텍스트 길이를 100만 내외로 제한하고 있다.물론 100만 토큰은 일반적인 텍스트 기반 PDF 1,000장을 넘길 정도의 막대한 분량이다. 하지만 이는 수치상으로 '다룰 수 있다'는 의미일 뿐, 실제로는 추론에 소요되는 시간과 자원이 기하급수적으로 늘어난다는 맹점이 있다.또한..
MDP, TD, MC를 이해해보자
·
Artificial Intelligence/Insights
강화학습(RL)을 공부하다 보면 반드시 마주치는 세 가지 개념이 있다. MDP(Markov Decision Process)MC(Monte Carlo)TD(Temporal Difference)이전 포스팅(#MDP, #BE)에서도 일부 다뤘지만, 최근 책을 읽으며 다시 정리할 필요를 느껴 흐름 중심으로 새 포스팅을 작성한다.왜 강화학습은 MDP를 전제로 하나?TD와 MC는 무엇이 다른가?왜 현실에서는 TD가 더 많이 쓰이나? 1. MDP: 강화학습의 전제 조건강화학습의 대부분의 알고리즘은 MDP라는 가정 위에서 만들어진다.MDP의 핵심 가정수식으로 표현하면 다음과 같다.$$P(S_{t+1}, R_{t+1}\mid S_t, A_t) = P(S_{t+1}, R_{t+1}\mid H_t, A_t)$$여기서 $..
강화학습, 지도학습의 차이점
·
Artificial Intelligence/Insights
현재 Richard S. Sutton 교수의 저서 『단단한 강화학습』 을 읽고 있는데, 초반부에 강화학습과 지도학습의 차이에 관해 상당히 많은 지면을 할애하고 있다. 처음엔 별 생각 없이 책을 읽어 나갔지만, 읽을수록 이 둘의 차이점이 모호하게 느껴지고 Sutton 교수가 지적하는 것처럼 착각하기 쉽다는 느낌이 들어 정리하기 위한 포스팅을 작성한다.Sutton 교수는 다른 많은 연구자들이 지도학습을 연구하면서도 자신이 강화학습을 연구한다고 믿었던 경험담을 언급한다."예를 들어 로젠블렛(Rosenblatt, 1962), 위드로와 호프(Widrow and Hoff, 1960) 같은 연구자들은 강화학습의 개념에 동기를 부여받았으나, 실제로는 지도학습 시스템을 연구하고 있었다."— 『단단한 강화학습』 21p '..
강화학습, 월드모델의 차이점
·
Artificial Intelligence/Insights
최근 생성형 AI와 로보틱스 분야에서 월드 모델(World Model)이라는 키워드가 자주 등장한다. 이 개념을 공부하다 보면 자연스럽게 이런 의문이 든다. 어차피 둘 다 에이전트가 환경에서 상호작용하며 배우는 것 같은데, 월드 모델이랑 강화학습은 대체 뭐가 다른가? 이전에 리뷰한 World Models(2018) 논문을 보면, 월드 모델이 실제 게임을 하는것 처럼 보이기 때문이다.비슷해 보이지만, 두 모델은 목표와 역할이 분명히 다르다. 이 글에서는 월드 모델과 강화학습의 개념적 차이를 간단히 설명한다. 요약월드 모델(World Model): 환경 동역학을 학습하고 미래 상태를 예측한다. 즉 "이 행동을 하면 세상이 어떻게 변하는가?"에 관심이 있으며, 예측 정확도로 평가받는다.강화학습(Reinforc..
LLM 서빙 최적화의 함정: Chunked Prefill과 Disaggregation의 한계
·
Artificial Intelligence/Insights
LLM은 내부적으로 Prefill과 Decode 단계로 동작한다. 동시 접속자가 1명일 때는 두 과정이 순차적으로 문제없이 진행되지만, 동시 접속자가 여러 명일 때는 Decode 속도가 완만하게 저하되는 것이아니라, 급격히 버벅이는 증상을 느낄 수 있다. 이는 두 단계가 GPU 자원을 놓고 경쟁하기 때문이며, 이들 간의 간섭을 최소화하는 것이 인공지능 서빙 분야의 주요 과제 중 하나다.이러한 현상을 이해하려면 먼저 Prefill이 compute-bound 작업이라는 점을 알아야 한다. Prefill은 입력된 전체 프롬프트를 처리하여 KV cache를 생성하는 과정이다. 모든 입력 토큰이 이미 주어져 있기 때문에, self-attention 연산을 대규모 행렬 곱셈으로 병렬 처리할 수 있다. 따라서 GPU..
[리뷰] ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
·
Artificial Intelligence/Paper Review
최근 Alibaba 의 LLM 모델인 Qwen3 시리즈에서는 계속해서 RoPE 기술을 적용하고 있다. 이걸 적용하는 이유는 매우 긴 컨텍스트(1M) 가용을 가능하게 해 주기에 그런데... 사실 적용해 봐도 어지간한 GPU 환경에서는 Prefill 이 너무 늘어지기에 실시간 채팅 용도로 1M 수준의 컨텍스트를 가용하기는 어렵다.그래도 이전에는 성능문제로 가용이 불가능했던, 큰 컨텍스트를 RoPE를 통해 가용 가능하게 된 점이 신기해서 논문을 리뷰해본다. 1. 서론트랜스포머 기반 사전학습 언어모델은 self-attention 메커니즘을 사용하여 문맥을 학습하지만, self-attention 자체는 위치 정보를 인식하지 못한다. 때문에 다들 알다시피 Positional Encoding 을 임베딩에 더해 처리하..
KV Caching
·
Artificial Intelligence/Fundamentals
이 글을 통해 많은 사람이 KV Caching을 쉽게 이해할 수 있기를 바란다. Transformer(Q, K, D)아래와 같은점만 명심하고 넘어가자.$Q, K ,D$에 곱해지는 입력 $X$ 값은 실제로 모두 같은 값이다.$W^Q, W^K, W^V$의 초기값은 '랜덤' 값이다. 특정한 의미를 가지고 있지 않다.(다만 학습을 통해 점점 업데이트됨.)$Q$ 와 $K^T$를 통해 유사도를 계산.(Q: 내가 찾는 정보, K: 제공할 수 있는 정보 = 즉 둘간의 매칭정보)$\sqrt{d_k}$로 값이 너무 커지는것을 방지$softmax$로 각 토큰에 대한 가중치를 확률분포로 변환.$V$와 곱셈하여 최종 출력 생성.(V: 그래서 뭘 전달할건데? 전달할 실제 정보)$Z$는 문맥정보가 통합된 최종 출력 벡터값외에도 T..
[리뷰] Ring Attention with Blockwise Transformers for Near-Infinite Context
·
Artificial Intelligence/Paper Review
Ring Attention 논문에서는 기존 Transformer가 훌륭하지만, 설계적인 문제로 인해 긴 시퀀스 처리 능력이 제한된다는 사실을 지적한다. 때문에 논문에서는 Blockwise(블럭단위) 연산을 활용하여 긴 시퀀스를 여러 장치에 분산시키는 동시에, 키-값 블록의 통신을 블록 단위 어텐션 연산과 완전히 중첩시키는 새로운 접근법인 '블록 단위 트랜스포머를 사용한 링 어텐션' 을 제안한다.이러한 접근방법은 절대로 근사치 계산에 의존하거나, 추가적인 통신 및 연산 오버헤드를 발생시키지 않으며, 기존의 memory-efficient Transformers로 달성할 수 있었던 것보다 최대 '장치 수(장치를 추가하면 추가할수록 더 긴 시퀀스 처리 가능)' 만큼 더 긴 시퀀스의 학습과 추론을 가능하게 한다...
[리뷰] World Models
·
Artificial Intelligence/Paper Review
논문 World Models은 현재 기준으로 7년이 지나 AI 업계에서는 꽤나 오래된 논문이지만, Transformer 이후 AGI로 나아가야될 방향을 제시하고 있는 논문이기에 리뷰한다.David Ha와 Jürgen Schmidhuber가 제시한 강화학습 분야의 혁신적인 연구로, 인간의 정신 모델과 유사한 방식으로 환경을 이해하고 행동하는 AI 에이전트를 구축하는 방법을 제시한다. 이 논문은 환경의 압축된 시공간 표현을 학습하는 생성 신경망 모델을 통해 복잡한 강화학습 문제를 해결하는 새로운 패러다임을 제안하는 논문이다. 1. Introduce인간은 제한된 감각으로 인지할 수 있는 것을 바탕으로 세상에 대한 정신 모델(mental model)을 발달시켰다. 우리가 내리는 결정과 행동은 이 내적 모델에 기..
BPFDoor의 원리와 구현
·
Cyber Security
BPFDoor는 Attacker에게 패킷을 받아, Target 시스템 내부를 공격 할 수 있는 방법이다. 하지만 미리 Target 시스템에 Door 역할을 수행할 프로그램을 심어두는 사전 조건이 필요하다.이 방법을 통해서 Port listen을 숨길 수 있으며, OSI 3-4계층에서 작동하는 방화벽을 무시할 수 있다.SKT 해킹사태가 바로 BPFDoor로 야기된 사건으로서, 이번 포스팅에서 BPFDoor의 원리와 구현 방식에 대해서 설명한다. SKT 해킹에 中해커 주특기 백도어 악성코드…"주체 단정 어려워" | 연합뉴스(서울=연합뉴스) 조성미 기자 = SK텔레콤[017670]의 가입자 유심(USIM) 정보를 탈취한 사이버 공격에서 중국 해커 그룹이 주로 사용하...www.yna.co.kr실습과정을 위해서..
오류: OSError: We couldn't connect to 'https://huggingface.co' to load this file 해결법.
·
Programming/Python
HuggingFace는 내부적으로 파일 다운시 IPv6를 사용하는것으로 추정된다.공유기나, 시스템적으로 IPv6 를 비활성화하면 발생하는 문제이므로, 활성화 해 주면 된다.
[리뷰] DeepSeek-V3 Technical Report
·
Artificial Intelligence/Paper Review
해당 포스팅은 PC 환경에 최적화 되어 있습니다. DeepSeek 라는 중국의 스타트업에서 만든 V3 모델은, OpenAI의 4o 모델에 대응되는 모델로서, 그 성능이 4o와 유사하면서, 추론 비용이 압도적으로 저렴하기에 현재 AI 커뮤니티에서 큰 파장을 불러일으키고 있다.논문의 Abstract 란에서 바로 벤치마크를 살펴볼 수 있다. Transformer 모델인 만큼 전반적인 벤치마크 수준은 o1, R1 모델 대비 낮지만, 벤치로 식별하기 어려운 창의적인 대화에서는 더 높은 성능을 보여준다. 1. 소개최근 몇년간 LLM 모델은 진화를 거듭하면서 AGI에 다가가고 있다. 대표적으로 ChatGPT, Claude, LLaMA, Qwen 등을 꼽을 수 있다. 이러한 변화의 물결에 올라, DeepSeek 사는 ..