MLC LLM:适用于任何平台的万能 LLM 部署引擎
January 28, 2026
类别:
实用开源项目
MLC LLM:适用于任何平台的万能 LLM 部署引擎
大型语言模型(LLMs)如今已成为聊天机器人、代码助手等各种应用的核心。然而,在本地运行它们——无论是 PC、移动设备还是浏览器——仍是一个令人苦恼的痛点。MLC LLM 通过充当 机器学习编译器 来解决这一问题,将任何 LLM 转化为高性能、跨平台的推理引擎。
MLC LLM 的重要性
- 零成本、无云推理 – 无需 GPU‑as‑a‑Service 订阅。
- 统一代码库 – 一次编写,随处运行:Windows、Linux、macOS、iOS、Android、WebGPU。
- 原生性能 – 在桌面使用 Vulkan,Apple silicon 使用 Metal,NVIDIA/AMD 使用 CUDA/ROCm,浏览器使用 WebGPU。
- 开源社区 – GitHub 上 20K+ 星标,>150 位贡献者,以及活跃的问题跟踪系统。
核心架构
Input Model (ONNX / PyTorch / TensorFlow) →
TensorIR ↔ MLC Compiler ↔ MLCEngine kernels →
Runtime (REST/API/JS/Swift/Kotlin)
- TensorIR – 捕获张量操作及其局部性的低级 IR。
- MLC Compiler – 应用 TensorIR 优化、计划转换以及针对平台的代码生成。
- MLCEngine – 一个轻量、线程安全的推理引擎,提供与 OpenAI 兼容的 REST API、Python 模块及 iOS/Android 原生绑定。
编译器利用经过验证的研究成果,如 TensorIR、MetaSchedule 和 TVM,生成高效的内核。它还具备 概率程序优化,能够自动为给定 GPU 寻找最佳调度。
支持的平台与 GPU
| 平台 | GPU支持 | 后端 |
|---|---|---|
| Windows | NVIDIA、AMD、Intel | Vulkan、CUDA、ROCm |
| Linux | NVIDIA、AMD、Intel | Vulkan、CUDA、ROCm |
| macOS | Apple M1/M2 | Metal |
| iOS/iPadOS | Apple A‑series | Metal |
| Android | Adreno、Mali | OpenCL |
| Web | Browser | WebGPU + WASM |
提示: 即使在没有专用 GPU 的笔记本电脑上,MLC LLM 也可以在 CPU 模式下运行,虽然性能会降低,但仍适合快速原型。
快速开始——从仓库到 REST API
# 1. 克隆仓库
git clone https://github.com/mlc-ai/mlc-llm.git
cd mlc-llm
# 2. 构建引擎(需要 CMake、Clang 及目标平台 SDK)
# 例如,在 Linux 上使用 CUDA:
./scripts/build_python.sh --cuda
# 3. 安装 Python 包
pip install .
# 4. 启动 REST 服务器
mlc_llm serve --model meta-llama/Llama-2-7b-chat-hf
# 5. 查询模型
curl -X POST http://127.0.0.1:8000/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{
原创文章:
查看原文