Catégories
- Toutes les publications 548
- Projets Open Source Pratiques 478
- Articles Tutoriels 22
- Utilitaires en ligne 13
- Actualités IA 7
- Tiny Startups Showcase 7
- Modèles d'Invites 5
- Claude Code Skills 5
- Espaces Hugging Face 3
- OpenClaw Use Cases 3
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- AI Short Drama Tools 1
- Mes favoris 0
Publications marquées avec: Model Quantization
Content related to Model Quantization
397B MoE sur MacBook : 4,4 t/s Moteur Flash-MoE
April 03, 2026
Flash-MoE exécute Qwen3.5-397B-A17B (397 milliards de paramètres) sur un MacBook Pro M3 Max avec 48 Go de RAM à 4,4+ jetons/seconde. Inférence pure C/Metal diffuse le modèle de 209 Go depuis le SSD avec une sortie de qualité production incluant les appels d'outils. Innovations clés : noyaux de déquantification optimisés FMA (+12 % de vitesse), streaming d'experts via cache de pages OS, calcul GPU différé, et shaders Metal ajustés manuellement. 58 expériences documentées avec article technique complet.