MacBook 上 397B MoE：4.4 t/s Flash-MoE 引擎

April 03, 2026

分类: 实用开源项目

标签:

Flash-MoE：在 MacBook 上运行 397B 参数，速度达 4.4+ 令牌/秒

想象在你的 MacBook Pro 上运行 3970 亿参数的专家混合 (MoE) 模型，输出质量达到生产级水准，速度为 4.4+ 令牌/秒。这正是 Flash-MoE 实现的——无需 Python、无需框架，仅使用纯 C/Objective-C 和手动调优的 Metal 着色器。

这不是理论。项目从 SSD 流式传输 209GB 4 位量化模型，同时提供：

*2 位会破坏 JSON/工具调用可靠性

MacBook Pro M3 Max：48GB 统一内存、40 核 GPU、17.5GB/s SSD。无需数据中心。

每层仅加载 K=4 个活跃专家（每个 ~6.75MB）
OS 页面缓存处理 LRU（自然命中率 71%）
通过 GCD 分派组并行 pread()
无需自定义缓存

经验教训：自定义 Metal LRU、LZ4 压缩和 mmap 表现更差。

// 之前：(nibble * scale + bias) * x
// 之后：fma(nibble, scale*x, bias*x)

GPU 融合乘加在一 单指令 中完成去量化 + 乘法。

CMD3(专家前向) → [延迟]
CMD1: 注意力投影
CPU: 路由 + pread 专家
CMD2: 合并 + 归一化
→ 下一层

4 位下每层平均 4.28ms。

GatedDeltaNet 使用 cblas_sgemv/sger - 比标量代码快 64%。

cd metal_infer && make
./infer --prompt "Explain quantum computing" --tokens 100
./chat  # 交互式 TUI + 工具调用

安全性：6GB 固定内存占用，为 OS + 页面缓存留下 42GB。在主开发机上无 OOM 风险。

完整技术细节涵盖 90+ 个实验和 24 小时人类+AI 开发故事。这是 最先进的 Apple Silicon 推理 - 开源、经过实战考验、推动硬件极限。

Stars: 3.2k | Forks: 371 - 社区看到真正创新时就知道。

原始文章: 查看原文