MLC LLM：适用于任何平台的万能 LLM 部署引擎

January 28, 2026

类别: 实用开源项目

标签:

Open Source Cross-platform mlc-llm LLM deployment machine learning compiler

MLC LLM：适用于任何平台的万能 LLM 部署引擎

大型语言模型（LLMs）如今已成为聊天机器人、代码助手等各种应用的核心。然而，在本地运行它们——无论是 PC、移动设备还是浏览器——仍是一个令人苦恼的痛点。MLC LLM 通过充当 机器学习编译器 来解决这一问题，将任何 LLM 转化为高性能、跨平台的推理引擎。

MLC LLM 的重要性

零成本、无云推理 – 无需 GPU‑as‑a‑Service 订阅。
统一代码库 – 一次编写，随处运行：Windows、Linux、macOS、iOS、Android、WebGPU。
原生性能 – 在桌面使用 Vulkan，Apple silicon 使用 Metal，NVIDIA/AMD 使用 CUDA/ROCm，浏览器使用 WebGPU。
开源社区 – GitHub 上 20K+ 星标，>150 位贡献者，以及活跃的问题跟踪系统。

核心架构

Input Model (ONNX / PyTorch / TensorFlow) → 
  TensorIR ↔ MLC Compiler ↔ MLCEngine kernels → 
  Runtime (REST/API/JS/Swift/Kotlin)

TensorIR – 捕获张量操作及其局部性的低级 IR。
MLC Compiler – 应用 TensorIR 优化、计划转换以及针对平台的代码生成。
MLCEngine – 一个轻量、线程安全的推理引擎，提供与 OpenAI 兼容的 REST API、Python 模块及 iOS/Android 原生绑定。

编译器利用经过验证的研究成果，如 TensorIR、MetaSchedule 和 TVM，生成高效的内核。它还具备 概率程序优化，能够自动为给定 GPU 寻找最佳调度。

支持的平台与 GPU

平台	GPU支持	后端
Windows	NVIDIA、AMD、Intel	Vulkan、CUDA、ROCm
Linux	NVIDIA、AMD、Intel	Vulkan、CUDA、ROCm
macOS	Apple M1/M2	Metal
iOS/iPadOS	Apple A‑series	Metal
Android	Adreno、Mali	OpenCL
Web	Browser	WebGPU + WASM

提示： 即使在没有专用 GPU 的笔记本电脑上，MLC LLM 也可以在 CPU 模式下运行，虽然性能会降低，但仍适合快速原型。

快速开始——从仓库到 REST API

# 1. 克隆仓库
git clone https://github.com/mlc-ai/mlc-llm.git
cd mlc-llm

# 2. 构建引擎（需要 CMake、Clang 及目标平台 SDK）
# 例如，在 Linux 上使用 CUDA：
./scripts/build_python.sh --cuda

# 3. 安装 Python 包
pip install .

# 4. 启动 REST 服务器
mlc_llm serve --model meta-llama/Llama-2-7b-chat-hf

# 5. 查询模型
curl -X POST http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{

原创文章: 查看原文