oMLX: SSDキャッシュ付きMacメニューバーLLMサーバー

oMLX: メニューバー制御でMacのローカルAIを革新

Apple Silicon上のローカルLLMが大幅アップグレード。oMLXは、プロダクション級の機能と極めてシンプルなMac統合を組み合わせたオープンソースの推論サーバーです。ターミナル操作を忘れて、メニューバーから直接LLMを管理。

oMLXの優位性

AppleのMLXフレームワークを基盤に、oMLXは以下の機能を提供:

  • 階層型KVキャッシュ: ホットRAM層 + コールドSSD層(プレフィックス共有とCopy-on-Write対応)
  • 連続バッチ処理: vLLMのように同時リクエストを処理
  • マルチモデルサービング: LLM、VLM、エンベディング、リランカーなどを1つのサーバーで
  • ネイティブmacOSアプリ: メニューバースタッツ、自動再起動、アプリ内アップデート
  • 管理ダッシュボード: リアルタイム監視、モデルダウンローダー、ベンチマーク、モデルごとの設定

開発者向けの強力機能

# 日常モデルをピン留め、重いモデルは自動切り替え
Pin: Qwen3-Coder-8bit, Step-3.5-Flash
Auto-load: gpt-oss-120b on demand

# SSDキャッシュは再起動後も維持
/hot-cache: 20GB RAM
/cold-cache: ~/.omlx/cache (SSD)

Claude Code対応: コンテキストスケーリング + SSEキープアライブで長時間コンパイル中のタイムアウトを防止。

ビジョン超能力: Qwen3.5-VL、GLM-4V、Pixtralによるマルチイメージツール呼び出しとOCR自動検出。

極めてシンプルなセットアップ

# Homebrew(推奨)
brew tap jundot/omlx
git clone https://github.com/jundot/omlx
pip install -e .

# 起動して忘れるだけ
brew services start omlx

またはReleasesからDMGをダウンロード – 3クリックで最初のトークン生成。

OpenAI APIドロップイン

POST http://localhost:8000/v1/chat/completions
curl -X POST http://localhost:8000/v1/embeddings

完全ストリーミング使用量統計、Anthropic Messages API、ツール呼び出し、ビジョン入力(base64/URL)対応。

プロダクション準備完了

  • メモリ強制: 総RAM制限でOOMを防止
  • LRU + 手動 + TTL: 洗練されたモデル排出
  • オフライン管理: 全CDNアセットをベンダリング
  • 構造化ログ: サービス + アプリケーションログ

ベンチマークが物語る

管理パネルから実行: プレフィルトークン/秒、生成トークン/秒、キャッシュヒット率。合成データではなく実世界の数値。

今日から始めよう

2.4k GitHubスター 急成長中。Apache 2.0ライセンス。

omlx serve --model-dir ~/models --max-model-memory 32GB

Macの統一メモリ + oMLX = クラウドサービスに匹敵するローカルAI。今すぐインストールしてオンデバイス推論の未来を体験。

この記事を共有