LLM inference - 开源项目

MacBook 上 397B MoE：4.4 t/s Flash-MoE 引擎

April 03, 2026

标签:

Apple Silicon LLM inference Mixture of Experts Metal Compute Model Quantization

Flash-MoE 在配备 48GB RAM 的 MacBook Pro M3 Max 上运行 Qwen3.5-397B-A17B（3970 亿参数），速度达 4.4+ 令牌/秒。纯 C/Metal 推理从 SSD 流式传输 209GB 模型，提供包括工具调用在内的生产级输出。主要创新：FMA 优化去量化内核（+12% 速度）、OS 页面缓存专家流式传输、延迟 GPU 计算和手动调优 Metal 着色器。记录了 58 个实验，并附完整技术论文。

阅读更多原始

实用开源项目

TurboQuant+：LLM 的 6.4 倍 KV 缓存压缩

March 29, 2026

标签:

Apple Silicon Llama.cpp LLM inference KV cache compression TurboQuant

TurboQuant+ 实现了 ICLR 2026 的突破性 KV 缓存压缩，在接近 q8_0 质量和速度下实现 4.6-6.4 倍压缩。支持 turbo2/turbo3/turbo4 格式、注意力门控 Sparse V 解码（+22.8% 解码速度），以及完整的 llama.cpp Metal 集成。在 M5 Max 上运行 Qwen 3.5 35B-A3B，实现 93.9% NIAH 检索和 1.02 倍 q8_0 预填充速度。完整的 Python 原型，包含 511+ 测试，并在 Apple Silicon、NVIDIA 和 AMD 上经过社区验证。

阅读更多原始

教程文章

在 $10 板子上运行 TinyLlama 与 PicoLM – 完整教程

February 27, 2026

标签:

TinyLlama PicoLM Embedded AI LLM inference Raspberry Pi

发现 PicoLM 如何将 $10 的 Raspberry Pi 或 LicheeRV 板子变成强大的本地 LLM 主机。本教程将引导你完成下载 TinyLlama 1.1B 模型、编译仅 C 语言引擎、配置 PicoClaw 进行离线聊天以及在低价硬件上基准性能。了解零依赖设计、闪存注意力和 JSON 语法约束，让你在小型设备上生成结构化输出。非常适合希望在边缘硬件上实现成本效益高、隐私保护的 LLM 的开发者。

阅读更多原始

分类

标记为的帖子: LLM inference

MacBook 上 397B MoE：4.4 t/s Flash-MoE 引擎

TurboQuant+：LLM 的 6.4 倍 KV 缓存压缩

在 $10 板子上运行 TinyLlama 与 PicoLM – 完整教程