标记为的帖子: LLM inference

Content related to LLM inference

MacBook 上 397B MoE:4.4 t/s Flash-MoE 引擎

April 03, 2026

Flash-MoE 在配备 48GB RAM 的 MacBook Pro M3 Max 上运行 Qwen3.5-397B-A17B(3970 亿参数),速度达 4.4+ 令牌/秒。纯 C/Metal 推理从 SSD 流式传输 209GB 模型,提供包括工具调用在内的生产级输出。主要创新:FMA 优化去量化内核(+12% 速度)、OS 页面缓存专家流式传输、延迟 GPU 计算和手动调优 Metal 着色器。记录了 58 个实验,并附完整技术论文。

TurboQuant+:LLM 的 6.4 倍 KV 缓存压缩

March 29, 2026

TurboQuant+ 实现了 ICLR 2026 的突破性 KV 缓存压缩,在接近 q8_0 质量和速度下实现 4.6-6.4 倍压缩。支持 turbo2/turbo3/turbo4 格式、注意力门控 Sparse V 解码(+22.8% 解码速度),以及完整的 llama.cpp Metal 集成。在 M5 Max 上运行 Qwen 3.5 35B-A3B,实现 93.9% NIAH 检索和 1.02 倍 q8_0 预填充速度。完整的 Python 原型,包含 511+ 测试,并在 Apple Silicon、NVIDIA 和 AMD 上经过社区验证。

在 $10 板子上运行 TinyLlama 与 PicoLM – 完整教程

February 27, 2026

发现 PicoLM 如何将 $10 的 Raspberry Pi 或 LicheeRV 板子变成强大的本地 LLM 主机。本教程将引导你完成下载 TinyLlama 1.1B 模型、编译仅 C 语言引擎、配置 PicoClaw 进行离线聊天以及在低价硬件上基准性能。了解零依赖设计、闪存注意力和 JSON 语法约束,让你在小型设备上生成结构化输出。非常适合希望在边缘硬件上实现成本效益高、隐私保护的 LLM 的开发者。