Articles étiquetés avec: TurboQuant

Content related to TurboQuant

TurboQuant+ : Compression du cache KV de 6,4x pour les LLMs

March 29, 2026

TurboQuant+ implémente la percée de compression du cache KV de l'ICLR 2026, atteignant une compression de 4,6-6,4x avec une qualité et une vitesse proches de q8_0. Fonctionnalités : formats turbo2/turbo3/turbo4, décodage Sparse V attention-gated (+22,8 % de vitesse de décodage), et intégration complète Metal llama.cpp. Exécutez Qwen 3.5 35B-A3B sur M5 Max avec 93,9 % de récupération NIAH et vitesse de pré-remplissage 1,02x q8_0. Prototype Python complet avec 511+ tests et validation communautaire sur Apple Silicon, NVIDIA et AMD.