タグ付きの投稿: KV cache compression

Content related to KV cache compression

TurboQuant+: LLM 向け 6.4 倍 KV キャッシュ圧縮

March 29, 2026

タグ:

Apple Silicon Llama.cpp LLM inference KV cache compression TurboQuant

TurboQuant+ は ICLR 2026 の画期的な KV キャッシュ圧縮を実装し、q8_0 に近い品質と速度で 4.6-6.4 倍圧縮を実現。turbo2/turbo3/turbo4 フォーマット、注意ゲート付き Sparse V デコーディング（+22.8% デコード速度）、llama.cpp Metal フル統合を特徴とします。M5 Max で Qwen 3.5 35B-A3B を 93.9% NIAH 検索と q8_0 prefill 速度 1.02 倍で実行。511+ テスト付き完全 Python プロトタイプと Apple Silicon、NVIDIA、AMD でのコミュニティ検証。

続きを読む原文

カテゴリ

タグ付きの投稿: KV cache compression

TurboQuant+: LLM 向け 6.4 倍 KV キャッシュ圧縮