タグ付きの投稿: KV cache compression
Content related to KV cache compression
TurboQuant+: LLM 向け 6.4 倍 KV キャッシュ圧縮
March 29, 2026
TurboQuant+ は ICLR 2026 の画期的な KV キャッシュ圧縮を実装し、q8_0 に近い品質と速度で 4.6-6.4 倍圧縮を実現。turbo2/turbo3/turbo4 フォーマット、注意ゲート付き Sparse V デコーディング(+22.8% デコード速度)、llama.cpp Metal フル統合を特徴とします。M5 Max で Qwen 3.5 35B-A3B を 93.9% NIAH 検索と q8_0 prefill 速度 1.02 倍で実行。511+ テスト付き完全 Python プロトタイプと Apple Silicon、NVIDIA、AMD でのコミュニティ検証。