Categorías
- Todas las publicaciones 549
- Proyectos Prácticos de Código Abierto 478
- Artículos Tutoriales 22
- Utilidades en Línea 13
- Noticias de IA 7
- Tiny Startups Showcase 7
- Claude Code Skills 6
- Plantillas de Prompts 5
- Espacios de Hugging Face 3
- OpenClaw Use Cases 3
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- AI Short Drama Tools 1
- Mis Favoritos 0
Publicaciones etiquetadas con: Llama.cpp
Content related to Llama.cpp
TurboQuant+: Compresión de Caché KV 6.4x para LLMs
TurboQuant+ implementa el avance de compresión de caché KV de ICLR 2026, logrando compresión 4.6-6.4x con calidad y velocidad cercanas a q8_0. Incluye formatos turbo2/turbo3/turbo4, decodificación Sparse V con puerta de atención (+22.8% velocidad de decodificación) e integración completa con llama.cpp Metal. Ejecuta Qwen 3.5 35B-A3B en M5 Max con 93.9% recuperación NIAH y velocidad de prefill 1.02x q8_0. Prototipo Python completo con más de 511 pruebas y validación comunitaria en Apple Silicon, NVIDIA y AMD.
Ejecuta IA en tu dispositivo: SDKs RunAnywhere para iOS y Android
Descubre los SDK de RunAnywhere, un conjunto de herramientas de código abierto que permite integrar inteligencia artificial en dispositivos móviles (iOS y Android) priorizando la privacidad. Esta guía completa abarca funciones como la generación de texto de alto rendimiento, pipelines de IA de voz, salidas estructuradas y una gestión de modelos sin complicaciones. Aprende a integrar modelos de lenguaje grandes (LLM) como Llama.cpp directamente en tus aplicaciones móviles para mejorar la privacidad y la experiencia del usuario. Tanto si estás creando una aplicación de chat como un asistente de voz, RunAnywhere ofrece las herramientas y la flexibilidad necesarias para desplegar modelos de IA directamente en los dispositivos de los usuarios, optimizar el rendimiento y mantener la privacidad de los datos. Empieza con ejemplos rápidos y explora nuestra hoja de ruta para futuras mejoras.