Categorías

Todas las publicaciones 497
Proyectos Prácticos de Código Abierto 436
Artículos Tutoriales 22
Utilidades en Línea 12
Noticias de IA 7
Tiny Startups Showcase 7
Plantillas de Prompts 4
Espacios de Hugging Face 3
OpenClaw Use Cases 2
LLM Learning Resources 1
Online AI Image Tools 1
OpenClaw Master Skills Collection 1
Rust Training Resources 1
Mis Favoritos 0

Entradas etiquetadas con: TurboQuant

Content related to TurboQuant

TurboQuant+: Compresión de Caché KV 6.4x para LLMs

March 29, 2026

Etiquetas:

Apple Silicon Llama.cpp LLM inference KV cache compression TurboQuant

TurboQuant+ implementa el avance de compresión de caché KV de ICLR 2026, logrando compresión 4.6-6.4x con calidad y velocidad cercanas a q8_0. Incluye formatos turbo2/turbo3/turbo4, decodificación Sparse V con puerta de atención (+22.8% velocidad de decodificación) e integración completa con llama.cpp Metal. Ejecuta Qwen 3.5 35B-A3B en M5 Max con 93.9% recuperación NIAH y velocidad de prefill 1.02x q8_0. Prototipo Python completo con más de 511 pruebas y validación comunitaria en Apple Silicon, NVIDIA y AMD.

Leer más Texto original en