LLM 서빙 최적화의 함정: Chunked Prefill과 Disaggregation의 한계
·
Artificial Intelligence/Post
LLM은 내부적으로 Prefill과 Decode 단계로 동작한다. 동시 접속자가 1명일 때는 두 과정이 순차적으로 문제없이 진행되지만, 동시 접속자가 여러 명일 때는 Decode 속도가 완만하게 저하되는 것이아니라, 급격히 버벅이는 증상을 느낄 수 있다. 이는 두 단계가 GPU 자원을 놓고 경쟁하기 때문이며, 이들 간의 간섭을 최소화하는 것이 인공지능 서빙 분야의 주요 과제 중 하나다.이러한 현상을 이해하려면 먼저 Prefill이 compute-bound 작업이라는 점을 알아야 한다. Prefill은 입력된 전체 프롬프트를 처리하여 KV cache를 생성하는 과정이다. 모든 입력 토큰이 이미 주어져 있기 때문에, self-attention 연산을 대규모 행렬 곱셈으로 병렬 처리할 수 있다. 따라서 GPU..