MLC LLM: すべてのプラットフォーム向けのユニバーサルデプロイメントエンジン

January 28, 2026

タグ:

Open Source Cross-platform mlc-llm LLM deployment machine learning compiler

MLC LLM: すべてのプラットフォーム向けのユニバーサルデプロイメントエンジン

大規模言語モデル（LLM）は、チャットボットからコードアシスタントまで、あらゆるものの背後で動力源となっています。しかし、PC、モバイルデバイス、さらにはブラウザでローカル実行することは、依然として痛みを伴う課題です。 MLC LLM は、機械学習コンパイラとして機能し、任意のLLMを高性能でクロスプラットフォームな推論エンジンへ変換することでこの問題を解決します。

なぜ MLC LLM が重要なのか

ゼロコストのクラウドフリー推論 – GPU-as-a-Service のサブスクリプションは不要です。
統一コードベース – 一度作ればどこでも動く：Windows、Linux、macOS、iOS、Android、WebGPU。
ネイティブパフォーマンス – デスクトップではVulkan、Apple Silicon では Metal、NVIDIA/AMD では CUDA/ROCm、ブラウザでは WebGPU を活用します。
オープンソースコミュニティ – GitHub で 20,000 以上のスター、150人以上の貢献者、活発なイシュートラッカーを備えています。

コアアーキテクチャ

Input Model (ONNX / PyTorch / TensorFlow) → 
  TensorIR ↔ MLC Compiler ↔ MLCEngine kernels → 
  Runtime (REST/API/JS/Swift/Kotlin)

TensorIR – テンソル演算とその局所性を表す低レベルIR。
MLC Compiler – TensorIR の最適化、スケジュール変換、プラットフォーム固有のコード生成を適用します。
MLCEngine – 軽量でスレッドセーフな推論エンジン。OpenAI 互換の REST API、Python モジュール、iOS/Android 用のネイティブバインディングを公開します。

このコンパイラは、TensorIR、MetaSchedule、TVM といった実績ある研究を活用し、効率的なカーネルを生成します。また、確率的プログラム最適化 機能により、GPU に最適なスケジュールを自動で発見します。

対応プラットフォームと GPU

プラットフォーム	GPU 対応	バックエンド
Windows	NVIDIA, AMD, Intel	Vulkan, CUDA, ROCm
Linux	NVIDIA, AMD, Intel	Vulkan, CUDA, ROCm
macOS	Apple M1/M2	Metal
iOS/iPadOS	Apple A‑series	Metal
Android	Adreno, Mali	OpenCL
Web	Browser	WebGPU + WASM

Tip: ノートパソコンに専用 GPU がなくても MLC LLM は CPU モードで走らせられ、パフォーマンスが落ちますが、クイックプロトタイピングに便利です。

クイックスタート – リポジトリから REST API へ

```bash

1. リポジトリをクローン

git clone https://github.com/mlc-ai/mlc-llm.git cd mlc-llm

2. エンジンをビルド（CMake、Clang、およびターゲットプラットフォーム用のSDKが必要）

例: CUDA を有効にした Linux で:

./scripts/build_python.sh --cuda

3. Python パッケージをインストール

pip install .

4. REST サーバーを起動

mlc_llm serve --model meta-llama/Llama-2-7b-chat-hf

5. モデルに問い合わせ

curl -X POST http://127.0.0.1:8000/v1/chat/completions \ -H 'Content-Type: application/json' \ -d '{",

元の記事: オリジナルを見る

この記事を共有