Publicaciones etiquetadas con: LLM inference

Content related to LLM inference

397B MoE en MacBook: Motor Flash-MoE a 4,4 t/s

April 03, 2026

Flash-MoE ejecuta Qwen3.5-397B-A17B (397 mil millones de parámetros) en un MacBook Pro M3 Max con 48 GB de RAM a 4,4+ tokens/segundo. Inferencia pura C/Metal transmite modelo de 209 GB desde SSD con salida de calidad de producción incluyendo llamadas a herramientas. Innovaciones clave: kernels de desquantización optimizados con FMA (+12% de velocidad), streaming de expertos con caché de páginas del SO, cómputo GPU diferido y shaders Metal ajustados manualmente. 58 experimentos documentados con paper técnico completo.

TurboQuant+: Compresión de Caché KV 6.4x para LLMs

March 29, 2026

TurboQuant+ implementa el avance de compresión de caché KV de ICLR 2026, logrando compresión 4.6-6.4x con calidad y velocidad cercanas a q8_0. Incluye formatos turbo2/turbo3/turbo4, decodificación Sparse V con puerta de atención (+22.8% velocidad de decodificación) e integración completa con llama.cpp Metal. Ejecuta Qwen 3.5 35B-A3B en M5 Max con 93.9% recuperación NIAH y velocidad de prefill 1.02x q8_0. Prototipo Python completo con más de 511 pruebas y validación comunitaria en Apple Silicon, NVIDIA y AMD.

Ejecutar TinyLlama en una placa de $10 con PicoLM – Una guía completa

February 27, 2026

Descubre cómo PicoLM convierte una Raspberry Pi o una placa LicheeRV de $10 en un potente alojador local de LLM. Este tutorial te guía a través de la descarga del modelo TinyLlama 1.1B, la compilación del motor solo en C, la configuración de PicoClaw para chat offline y la medición de rendimiento en hardware económico. Aprende sobre el diseño sin dependencias, Flash Attention y las restricciones de gramática JSON que te permiten generar salidas estructuradas en un dispositivo pequeño. Ideal para desarrolladores que buscan un LLM rentable y que preserve la privacidad en hardware de borde.