MLC LLM:适用于任何平台的万能 LLM 部署引擎

MLC LLM:适用于任何平台的万能 LLM 部署引擎

大型语言模型(LLMs)如今已成为聊天机器人、代码助手等各种应用的核心。然而,在本地运行它们——无论是 PC、移动设备还是浏览器——仍是一个令人苦恼的痛点。MLC LLM 通过充当 机器学习编译器 来解决这一问题,将任何 LLM 转化为高性能、跨平台的推理引擎。

MLC LLM 的重要性

  • 零成本、无云推理 – 无需 GPU‑as‑a‑Service 订阅。
  • 统一代码库 – 一次编写,随处运行:Windows、Linux、macOS、iOS、Android、WebGPU。
  • 原生性能 – 在桌面使用 Vulkan,Apple silicon 使用 Metal,NVIDIA/AMD 使用 CUDA/ROCm,浏览器使用 WebGPU。
  • 开源社区 – GitHub 上 20K+ 星标,>150 位贡献者,以及活跃的问题跟踪系统。

核心架构

Input Model (ONNX / PyTorch / TensorFlow) → 
  TensorIR ↔ MLC Compiler ↔ MLCEngine kernels → 
  Runtime (REST/API/JS/Swift/Kotlin) 
  1. TensorIR – 捕获张量操作及其局部性的低级 IR。
  2. MLC Compiler – 应用 TensorIR 优化、计划转换以及针对平台的代码生成。
  3. MLCEngine – 一个轻量、线程安全的推理引擎,提供与 OpenAI 兼容的 REST API、Python 模块及 iOS/Android 原生绑定。

编译器利用经过验证的研究成果,如 TensorIRMetaScheduleTVM,生成高效的内核。它还具备 概率程序优化,能够自动为给定 GPU 寻找最佳调度。

支持的平台与 GPU

平台 GPU支持 后端
Windows NVIDIA、AMD、Intel Vulkan、CUDA、ROCm
Linux NVIDIA、AMD、Intel Vulkan、CUDA、ROCm
macOS Apple M1/M2 Metal
iOS/iPadOS Apple A‑series Metal
Android Adreno、Mali OpenCL
Web Browser WebGPU + WASM

提示: 即使在没有专用 GPU 的笔记本电脑上,MLC LLM 也可以在 CPU 模式下运行,虽然性能会降低,但仍适合快速原型。

快速开始——从仓库到 REST API

# 1. 克隆仓库
git clone https://github.com/mlc-ai/mlc-llm.git
cd mlc-llm

# 2. 构建引擎(需要 CMake、Clang 及目标平台 SDK)
# 例如,在 Linux 上使用 CUDA:
./scripts/build_python.sh --cuda

# 3. 安装 Python 包
pip install .

# 4. 启动 REST 服务器
mlc_llm serve --model meta-llama/Llama-2-7b-chat-hf

# 5. 查询模型
curl -X POST http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{
原创文章: 查看原文

分享本文