タグ付けされた投稿: Model Quantization

Content related to Model Quantization

MacBook 上の 397B MoE：4.4 t/s Flash-MoE エンジン

April 03, 2026

タグ:

Apple Silicon LLM inference Mixture of Experts Metal Compute Model Quantization

Flash-MoE は、48GB RAM の MacBook Pro M3 Max で Qwen3.5-397B-A17B（3970億パラメータ）を 4.4+ トークン/秒で実行します。純粋な C/Metal 推論により、209GB モデルを SSD からストリーミングし、ツール呼び出しを含むプロダクション品質の出力を提供します。主要イノベーション：FMA 最適化デ量子化カーネル（+12% 速度）、OS ページキャッシュエキスパートストリーミング、遅延 GPU 計算、手動調整 Metal シェーダー。58 実験が文書化され、完全な技術論文付き。

詳細を読むオリジナル

カテゴリ

タグ付けされた投稿: Model Quantization

MacBook 上の 397B MoE：4.4 t/s Flash-MoE エンジン