Categorías

Todas las publicaciones 548
Proyectos Prácticos de Código Abierto 478
Artículos Tutoriales 22
Utilidades en Línea 13
Noticias de IA 7
Tiny Startups Showcase 7
Plantillas de Prompts 5
Claude Code Skills 5
Espacios de Hugging Face 3
OpenClaw Use Cases 3
LLM Learning Resources 1
Online AI Image Tools 1
OpenClaw Master Skills Collection 1
Rust Training Resources 1
AI Short Drama Tools 1
Mis Favoritos 0

Publicaciones etiquetadas con: Model Quantization

Content related to Model Quantization

397B MoE en MacBook: Motor Flash-MoE a 4,4 t/s

April 03, 2026

Etiquetas:

Apple Silicon LLM inference Mixture of Experts Metal Compute Model Quantization

Flash-MoE ejecuta Qwen3.5-397B-A17B (397 mil millones de parámetros) en un MacBook Pro M3 Max con 48 GB de RAM a 4,4+ tokens/segundo. Inferencia pura C/Metal transmite modelo de 209 GB desde SSD con salida de calidad de producción incluyendo llamadas a herramientas. Innovaciones clave: kernels de desquantización optimizados con FMA (+12% de velocidad), streaming de expertos con caché de páginas del SO, cómputo GPU diferido y shaders Metal ajustados manualmente. 58 experimentos documentados con paper técnico completo.

Leer más Original