Categorías
- Todas las publicaciones 548
- Proyectos Prácticos de Código Abierto 478
- Artículos Tutoriales 22
- Utilidades en Línea 13
- Noticias de IA 7
- Tiny Startups Showcase 7
- Plantillas de Prompts 5
- Claude Code Skills 5
- Espacios de Hugging Face 3
- OpenClaw Use Cases 3
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- AI Short Drama Tools 1
- Mis Favoritos 0
Publicaciones etiquetadas con: Model Quantization
Content related to Model Quantization
397B MoE en MacBook: Motor Flash-MoE a 4,4 t/s
April 03, 2026
Flash-MoE ejecuta Qwen3.5-397B-A17B (397 mil millones de parámetros) en un MacBook Pro M3 Max con 48 GB de RAM a 4,4+ tokens/segundo. Inferencia pura C/Metal transmite modelo de 209 GB desde SSD con salida de calidad de producción incluyendo llamadas a herramientas. Innovaciones clave: kernels de desquantización optimizados con FMA (+12% de velocidad), streaming de expertos con caché de páginas del SO, cómputo GPU diferido y shaders Metal ajustados manualmente. 58 experimentos documentados con paper técnico completo.