Publications marquées avec: Metal Compute

Content related to Metal Compute

397B MoE sur MacBook : 4,4 t/s Moteur Flash-MoE

April 03, 2026

Flash-MoE exécute Qwen3.5-397B-A17B (397 milliards de paramètres) sur un MacBook Pro M3 Max avec 48 Go de RAM à 4,4+ jetons/seconde. Inférence pure C/Metal diffuse le modèle de 209 Go depuis le SSD avec une sortie de qualité production incluant les appels d'outils. Innovations clés : noyaux de déquantification optimisés FMA (+12 % de vitesse), streaming d'experts via cache de pages OS, calcul GPU différé, et shaders Metal ajustés manuellement. 58 expériences documentées avec article technique complet.