LLM 추론의 숨겨진 병목, KV Cache와 40년 된 수학 명제의 연관성

황지욱

수석연구원, AI 솔루션팀

이 글은 2부작 시리즈의 1부로, 1984년의 수학적 보조정리(lemma)에서 출발해 현재 llama.cpp와 vLLM에 통합되고 있는 KV 캐시(Key-Value Cache) 양자화(quantization) 기법인 TurboQuant까지의 흐름을 추적합니다.

1부에서는 KV 캐시 메모리 문제, Johnson-Lindenstrauss 정리의 이론적 토대, 그리고 내적 추정값의 비편향성을 유지하면서 키(key)를 단 1비트로 압축한 최초의 기법인 QJL을 다룹니다.

2부에서는 PolarQuant, TurboQuant, RaBitQ를 둘러싼 논쟁, 그리고 실제 구현에서 얻을 수 있는 인사이트를 다룰 예정입니다.