Categorías
- Todas las publicaciones 497
- Proyectos Prácticos de Código Abierto 436
- Artículos Tutoriales 22
- Utilidades en Línea 12
- Noticias de IA 7
- Tiny Startups Showcase 7
- Plantillas de Prompts 4
- Espacios de Hugging Face 3
- OpenClaw Use Cases 2
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- Mis Favoritos 0
Entradas etiquetadas con: TurboQuant
Content related to TurboQuant
TurboQuant+: Compresión de Caché KV 6.4x para LLMs
March 29, 2026
TurboQuant+ implementa el avance de compresión de caché KV de ICLR 2026, logrando compresión 4.6-6.4x con calidad y velocidad cercanas a q8_0. Incluye formatos turbo2/turbo3/turbo4, decodificación Sparse V con puerta de atención (+22.8% velocidad de decodificación) e integración completa con llama.cpp Metal. Ejecuta Qwen 3.5 35B-A3B en M5 Max con 93.9% recuperación NIAH y velocidad de prefill 1.02x q8_0. Prototipo Python completo con más de 511 pruebas y validación comunitaria en Apple Silicon, NVIDIA y AMD.