Categorías
- Todas las publicaciones 548
- Proyectos Prácticos de Código Abierto 478
- Artículos Tutoriales 22
- Utilidades en Línea 13
- Noticias de IA 7
- Tiny Startups Showcase 7
- Plantillas de Prompts 5
- Claude Code Skills 5
- Espacios de Hugging Face 3
- OpenClaw Use Cases 3
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- AI Short Drama Tools 1
- Mis Favoritos 0
Publicaciones etiquetadas con: LLM inference
Content related to LLM inference
397B MoE en MacBook: Motor Flash-MoE a 4,4 t/s
Flash-MoE ejecuta Qwen3.5-397B-A17B (397 mil millones de parámetros) en un MacBook Pro M3 Max con 48 GB de RAM a 4,4+ tokens/segundo. Inferencia pura C/Metal transmite modelo de 209 GB desde SSD con salida de calidad de producción incluyendo llamadas a herramientas. Innovaciones clave: kernels de desquantización optimizados con FMA (+12% de velocidad), streaming de expertos con caché de páginas del SO, cómputo GPU diferido y shaders Metal ajustados manualmente. 58 experimentos documentados con paper técnico completo.
TurboQuant+: Compresión de Caché KV 6.4x para LLMs
TurboQuant+ implementa el avance de compresión de caché KV de ICLR 2026, logrando compresión 4.6-6.4x con calidad y velocidad cercanas a q8_0. Incluye formatos turbo2/turbo3/turbo4, decodificación Sparse V con puerta de atención (+22.8% velocidad de decodificación) e integración completa con llama.cpp Metal. Ejecuta Qwen 3.5 35B-A3B en M5 Max con 93.9% recuperación NIAH y velocidad de prefill 1.02x q8_0. Prototipo Python completo con más de 511 pruebas y validación comunitaria en Apple Silicon, NVIDIA y AMD.
Ejecutar TinyLlama en una placa de $10 con PicoLM – Una guía completa
Descubre cómo PicoLM convierte una Raspberry Pi o una placa LicheeRV de $10 en un potente alojador local de LLM. Este tutorial te guía a través de la descarga del modelo TinyLlama 1.1B, la compilación del motor solo en C, la configuración de PicoClaw para chat offline y la medición de rendimiento en hardware económico. Aprende sobre el diseño sin dependencias, Flash Attention y las restricciones de gramática JSON que te permiten generar salidas estructuradas en un dispositivo pequeño. Ideal para desarrolladores que buscan un LLM rentable y que preserve la privacidad en hardware de borde.