标记为: KV cache compression

Content related to KV cache compression

TurboQuant+:LLM 的 6.4 倍 KV 缓存压缩

March 29, 2026

TurboQuant+ 实现了 ICLR 2026 的突破性 KV 缓存压缩,在接近 q8_0 质量和速度下实现 4.6-6.4 倍压缩。支持 turbo2/turbo3/turbo4 格式、注意力门控 Sparse V 解码(+22.8% 解码速度),以及完整的 llama.cpp Metal 集成。在 M5 Max 上运行 Qwen 3.5 35B-A3B,实现 93.9% NIAH 检索和 1.02 倍 q8_0 预填充速度。完整的 Python 原型,包含 511+ 测试,并在 Apple Silicon、NVIDIA 和 AMD 上经过社区验证。