
[리뷰] Ring Attention with Blockwise Transformers for Near-Infinite Context

·
Artificial Intelligence/Article
Ring Attention 논문에서는 기존 Transformer가 훌륭하지만, 설계적인 문제로 인해 긴 시퀀스 처리 능력이 제한된다는 사실을 지적한다. 때문에 논문에서는 Blockwise(블럭단위) 연산을 활용하여 긴 시퀀스를 여러 장치에 분산시키는 동시에, 키-값 블록의 통신을 블록 단위 어텐션 연산과 완전히 중첩시키는 새로운 접근법인 '블록 단위 트랜스포머를 사용한 링 어텐션' 을 제안한다.이러한 접근방법은 절대로 근사치 계산에 의존하거나, 추가적인 통신 및 연산 오버헤드를 발생시키지 않으며, 기존의 memory-efficient Transformers로 달성할 수 있었던 것보다 최대 '장치 수(장치를 추가하면 추가할수록 더 긴 시퀀스 처리 가능)' 만큼 더 긴 시퀀스의 학습과 추론을 가능하게 한다...