标记为的帖子: Model Quantization
Content related to Model Quantization
MacBook 上 397B MoE:4.4 t/s Flash-MoE 引擎
April 03, 2026
Flash-MoE 在配备 48GB RAM 的 MacBook Pro M3 Max 上运行 Qwen3.5-397B-A17B(3970 亿参数),速度达 4.4+ 令牌/秒。纯 C/Metal 推理从 SSD 流式传输 209GB 模型,提供包括工具调用在内的生产级输出。主要创新:FMA 优化去量化内核(+12% 速度)、OS 页面缓存专家流式传输、延迟 GPU 计算和手动调优 Metal 着色器。记录了 58 个实验,并附完整技术论文。