Catégories

Tous les articles 497
Projets Open Source Pratiques 436
Articles Tutoriels 22
Utilitaires en ligne 12
Actualités IA 7
Tiny Startups Showcase 7
Modèles d'Invites 4
Espaces Hugging Face 3
OpenClaw Use Cases 2
LLM Learning Resources 1
Online AI Image Tools 1
OpenClaw Master Skills Collection 1
Rust Training Resources 1
Mes favoris 0

Articles étiquetés avec: TurboQuant

Content related to TurboQuant

TurboQuant+ : Compression du cache KV de 6,4x pour les LLMs

March 29, 2026

Étiquettes:

Apple Silicon Llama.cpp LLM inference KV cache compression TurboQuant

TurboQuant+ implémente la percée de compression du cache KV de l'ICLR 2026, atteignant une compression de 4,6-6,4x avec une qualité et une vitesse proches de q8_0. Fonctionnalités : formats turbo2/turbo3/turbo4, décodage Sparse V attention-gated (+22,8 % de vitesse de décodage), et intégration complète Metal llama.cpp. Exécutez Qwen 3.5 35B-A3B sur M5 Max avec 93,9 % de récupération NIAH et vitesse de pré-remplissage 1,02x q8_0. Prototype Python complet avec 511+ tests et validation communautaire sur Apple Silicon, NVIDIA et AMD.

Lire la suite Langue source