oMLX: SSDキャッシュ付きMacメニューバーLLMサーバー
oMLX: メニューバー制御でMacのローカルAIを革新
Apple Silicon上のローカルLLMが大幅アップグレード。oMLXは、プロダクション級の機能と極めてシンプルなMac統合を組み合わせたオープンソースの推論サーバーです。ターミナル操作を忘れて、メニューバーから直接LLMを管理。
oMLXの優位性
AppleのMLXフレームワークを基盤に、oMLXは以下の機能を提供:
- 階層型KVキャッシュ: ホットRAM層 + コールドSSD層(プレフィックス共有とCopy-on-Write対応)
- 連続バッチ処理: vLLMのように同時リクエストを処理
- マルチモデルサービング: LLM、VLM、エンベディング、リランカーなどを1つのサーバーで
- ネイティブmacOSアプリ: メニューバースタッツ、自動再起動、アプリ内アップデート
- 管理ダッシュボード: リアルタイム監視、モデルダウンローダー、ベンチマーク、モデルごとの設定
開発者向けの強力機能
# 日常モデルをピン留め、重いモデルは自動切り替え
Pin: Qwen3-Coder-8bit, Step-3.5-Flash
Auto-load: gpt-oss-120b on demand
# SSDキャッシュは再起動後も維持
/hot-cache: 20GB RAM
/cold-cache: ~/.omlx/cache (SSD)
Claude Code対応: コンテキストスケーリング + SSEキープアライブで長時間コンパイル中のタイムアウトを防止。
ビジョン超能力: Qwen3.5-VL、GLM-4V、Pixtralによるマルチイメージツール呼び出しとOCR自動検出。
極めてシンプルなセットアップ
# Homebrew(推奨)
brew tap jundot/omlx
git clone https://github.com/jundot/omlx
pip install -e .
# 起動して忘れるだけ
brew services start omlx
またはReleasesからDMGをダウンロード – 3クリックで最初のトークン生成。
OpenAI APIドロップイン
POST http://localhost:8000/v1/chat/completions
curl -X POST http://localhost:8000/v1/embeddings
完全ストリーミング使用量統計、Anthropic Messages API、ツール呼び出し、ビジョン入力(base64/URL)対応。
プロダクション準備完了
- メモリ強制: 総RAM制限でOOMを防止
- LRU + 手動 + TTL: 洗練されたモデル排出
- オフライン管理: 全CDNアセットをベンダリング
- 構造化ログ: サービス + アプリケーションログ
ベンチマークが物語る
管理パネルから実行: プレフィルトークン/秒、生成トークン/秒、キャッシュヒット率。合成データではなく実世界の数値。
今日から始めよう
⭐ 2.4k GitHubスター 急成長中。Apache 2.0ライセンス。
omlx serve --model-dir ~/models --max-model-memory 32GB
Macの統一メモリ + oMLX = クラウドサービスに匹敵するローカルAI。今すぐインストールしてオンデバイス推論の未来を体験。
元の記事:
オリジナルを見る