标记为的帖子: Model Quantization

Content related to Model Quantization

MacBook 上 397B MoE：4.4 t/s Flash-MoE 引擎

April 03, 2026

标签:

Apple Silicon LLM inference Mixture of Experts Metal Compute Model Quantization

Flash-MoE 在配备 48GB RAM 的 MacBook Pro M3 Max 上运行 Qwen3.5-397B-A17B（3970 亿参数），速度达 4.4+ 令牌/秒。纯 C/Metal 推理从 SSD 流式传输 209GB 模型，提供包括工具调用在内的生产级输出。主要创新：FMA 优化去量化内核（+12% 速度）、OS 页面缓存专家流式传输、延迟 GPU 计算和手动调优 Metal 着色器。记录了 58 个实验，并附完整技术论文。

阅读更多原始

分类

标记为的帖子: Model Quantization

MacBook 上 397B MoE：4.4 t/s Flash-MoE 引擎