Catégories
- Tous les articles 497
- Projets Open Source Pratiques 436
- Articles Tutoriels 22
- Utilitaires en ligne 12
- Actualités IA 7
- Tiny Startups Showcase 7
- Modèles d'Invites 4
- Espaces Hugging Face 3
- OpenClaw Use Cases 2
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- Mes favoris 0
Articles étiquetés avec: KV cache compression
Content related to KV cache compression
TurboQuant+ : Compression du cache KV de 6,4x pour les LLMs
March 29, 2026
TurboQuant+ implémente la percée de compression du cache KV de l'ICLR 2026, atteignant une compression de 4,6-6,4x avec une qualité et une vitesse proches de q8_0. Fonctionnalités : formats turbo2/turbo3/turbo4, décodage Sparse V attention-gated (+22,8 % de vitesse de décodage), et intégration complète Metal llama.cpp. Exécutez Qwen 3.5 35B-A3B sur M5 Max avec 93,9 % de récupération NIAH et vitesse de pré-remplissage 1,02x q8_0. Prototype Python complet avec 511+ tests et validation communautaire sur Apple Silicon, NVIDIA et AMD.