カテゴリ
- すべての投稿 548
- 実用的なオープンソースプロジェクト 478
- チュートリアル記事 22
- オンラインユーティリティ 13
- AIニュース 7
- Tiny Startups Showcase 7
- プロンプトテンプレート 5
- Claude Code Skills 5
- Hugging Face Spaces 3
- OpenClaw Use Cases 3
- LLM Learning Resources 1
- Online AI Image Tools 1
- OpenClaw Master Skills Collection 1
- Rust Training Resources 1
- AI Short Drama Tools 1
- お気に入り 0
タグ付けされた投稿: Model Quantization
Content related to Model Quantization
MacBook 上の 397B MoE:4.4 t/s Flash-MoE エンジン
April 03, 2026
Flash-MoE は、48GB RAM の MacBook Pro M3 Max で Qwen3.5-397B-A17B(3970億パラメータ)を 4.4+ トークン/秒で実行します。純粋な C/Metal 推論により、209GB モデルを SSD からストリーミングし、ツール呼び出しを含むプロダクション品質の出力を提供します。主要イノベーション:FMA 最適化デ量子化カーネル(+12% 速度)、OS ページキャッシュエキスパートストリーミング、遅延 GPU 計算、手動調整 Metal シェーダー。58 実験が文書化され、完全な技術論文付き。