Publicaciones etiquetadas con: Mixture of Experts

Content related to Mixture of Experts

397B MoE en MacBook: Motor Flash-MoE a 4,4 t/s

April 03, 2026

Flash-MoE ejecuta Qwen3.5-397B-A17B (397 mil millones de parámetros) en un MacBook Pro M3 Max con 48 GB de RAM a 4,4+ tokens/segundo. Inferencia pura C/Metal transmite modelo de 209 GB desde SSD con salida de calidad de producción incluyendo llamadas a herramientas. Innovaciones clave: kernels de desquantización optimizados con FMA (+12% de velocidad), streaming de expertos con caché de páginas del SO, cómputo GPU diferido y shaders Metal ajustados manualmente. 58 experimentos documentados con paper técnico completo.