Publicaciones etiquetadas con: Llama.cpp

Content related to Llama.cpp

TurboQuant+: Compresión de Caché KV 6.4x para LLMs

March 29, 2026

TurboQuant+ implementa el avance de compresión de caché KV de ICLR 2026, logrando compresión 4.6-6.4x con calidad y velocidad cercanas a q8_0. Incluye formatos turbo2/turbo3/turbo4, decodificación Sparse V con puerta de atención (+22.8% velocidad de decodificación) e integración completa con llama.cpp Metal. Ejecuta Qwen 3.5 35B-A3B en M5 Max con 93.9% recuperación NIAH y velocidad de prefill 1.02x q8_0. Prototipo Python completo con más de 511 pruebas y validación comunitaria en Apple Silicon, NVIDIA y AMD.

Ejecuta IA en tu dispositivo: SDKs RunAnywhere para iOS y Android

November 12, 2025

Descubre los SDK de RunAnywhere, un conjunto de herramientas de código abierto que permite integrar inteligencia artificial en dispositivos móviles (iOS y Android) priorizando la privacidad. Esta guía completa abarca funciones como la generación de texto de alto rendimiento, pipelines de IA de voz, salidas estructuradas y una gestión de modelos sin complicaciones. Aprende a integrar modelos de lenguaje grandes (LLM) como Llama.cpp directamente en tus aplicaciones móviles para mejorar la privacidad y la experiencia del usuario. Tanto si estás creando una aplicación de chat como un asistente de voz, RunAnywhere ofrece las herramientas y la flexibilidad necesarias para desplegar modelos de IA directamente en los dispositivos de los usuarios, optimizar el rendimiento y mantener la privacidad de los datos. Empieza con ejemplos rápidos y explora nuestra hoja de ruta para futuras mejoras.