Catégories

Toutes les publications 548
Projets Open Source Pratiques 478
Articles Tutoriels 22
Utilitaires en ligne 13
Actualités IA 7
Tiny Startups Showcase 7
Modèles d'Invites 5
Claude Code Skills 5
Espaces Hugging Face 3
OpenClaw Use Cases 3
LLM Learning Resources 1
Online AI Image Tools 1
OpenClaw Master Skills Collection 1
Rust Training Resources 1
AI Short Drama Tools 1
Mes favoris 0

Publications marquées avec: Model Quantization

Content related to Model Quantization

397B MoE sur MacBook : 4,4 t/s Moteur Flash-MoE

April 03, 2026

Étiquettes:

Apple Silicon LLM inference Mixture of Experts Metal Compute Model Quantization

Flash-MoE exécute Qwen3.5-397B-A17B (397 milliards de paramètres) sur un MacBook Pro M3 Max avec 48 Go de RAM à 4,4+ jetons/seconde. Inférence pure C/Metal diffuse le modèle de 209 Go depuis le SSD avec une sortie de qualité production incluant les appels d'outils. Innovations clés : noyaux de déquantification optimisés FMA (+12 % de vitesse), streaming d'experts via cache de pages OS, calcul GPU différé, et shaders Metal ajustés manuellement. 58 expériences documentées avec article technique complet.

Lire plus Original