MLC LLM: すべてのプラットフォーム向けのユニバーサルデプロイメントエンジン
January 28, 2026
カテゴリ:
実用的なオープンソースプロジェクト
MLC LLM: すべてのプラットフォーム向けのユニバーサルデプロイメントエンジン
大規模言語モデル(LLM)は、チャットボットからコードアシスタントまで、あらゆるものの背後で動力源となっています。しかし、PC、モバイルデバイス、さらにはブラウザでローカル実行することは、依然として痛みを伴う課題です。 MLC LLM は、機械学習コンパイラとして機能し、任意のLLMを高性能でクロスプラットフォームな推論エンジンへ変換することでこの問題を解決します。
なぜ MLC LLM が重要なのか
- ゼロコストのクラウドフリー推論 – GPU-as-a-Service のサブスクリプションは不要です。
- 統一コードベース – 一度作ればどこでも動く:Windows、Linux、macOS、iOS、Android、WebGPU。
- ネイティブパフォーマンス – デスクトップではVulkan、Apple Silicon では Metal、NVIDIA/AMD では CUDA/ROCm、ブラウザでは WebGPU を活用します。
- オープンソースコミュニティ – GitHub で 20,000 以上のスター、150人以上の貢献者、活発なイシュー トラッカーを備えています。
コアアーキテクチャ
Input Model (ONNX / PyTorch / TensorFlow) →
TensorIR ↔ MLC Compiler ↔ MLCEngine kernels →
Runtime (REST/API/JS/Swift/Kotlin)
- TensorIR – テンソル演算とその局所性を表す低レベルIR。
- MLC Compiler – TensorIR の最適化、スケジュール変換、プラットフォーム固有のコード生成を適用します。
- MLCEngine – 軽量でスレッドセーフな推論エンジン。OpenAI 互換の REST API、Python モジュール、iOS/Android 用のネイティブバインディングを公開します。
このコンパイラは、TensorIR、MetaSchedule、TVM といった実績ある研究を活用し、効率的なカーネルを生成します。また、確率的プログラム最適化 機能により、GPU に最適なスケジュールを自動で発見します。
対応プラットフォームと GPU
| プラットフォーム | GPU 対応 | バックエンド |
|---|---|---|
| Windows | NVIDIA, AMD, Intel | Vulkan, CUDA, ROCm |
| Linux | NVIDIA, AMD, Intel | Vulkan, CUDA, ROCm |
| macOS | Apple M1/M2 | Metal |
| iOS/iPadOS | Apple A‑series | Metal |
| Android | Adreno, Mali | OpenCL |
| Web | Browser | WebGPU + WASM |
Tip: ノートパソコンに専用 GPU がなくても MLC LLM は CPU モードで走らせられ、パフォーマンスが落ちますが、クイックプロトタイピングに便利です。
クイックスタート – リポジトリから REST API へ
```bash
1. リポジトリをクローン
git clone https://github.com/mlc-ai/mlc-llm.git cd mlc-llm
2. エンジンをビルド(CMake、Clang、およびターゲットプラットフォーム用のSDKが必要)
例: CUDA を有効にした Linux で:
./scripts/build_python.sh --cuda
3. Python パッケージをインストール
pip install .
4. REST サーバーを起動
mlc_llm serve --model meta-llama/Llama-2-7b-chat-hf
5. モデルに問い合わせ
curl -X POST http://127.0.0.1:8000/v1/chat/completions \ -H 'Content-Type: application/json' \ -d '{",
元の記事:
オリジナルを見る