oMLX：Mac 菜单栏 LLM 服务器，带 SSD 缓存

March 10, 2026

分类: 实用开源项目

标签:

Apple Silicon MLX oMLX LLM Server Mac AI

oMLX：通过菜单栏控制革新你的 Mac 本地 AI

Apple Silicon 上的本地 LLM 刚刚迎来重大升级。oMLX 是一个开源推理服务器，将生产级功能与超级简单的 Mac 集成相结合。忘掉终端切换吧——直接从菜单栏管理你的 LLM。

为什么 oMLX 与众不同

基于 Apple 的 MLX 框架，oMLX 提供：

分层 KV 缓存：热 RAM 层 + 冷 SSD 层，支持前缀共享和写时复制
连续批处理：像 vLLM 一样处理并发请求
多模型服务：LLM、VLM、嵌入和重排序器在一个服务器中
原生 macOS 应用：菜单栏统计、自动重启、应用内更新
管理仪表板：实时监控、模型下载器、基准测试、每模型设置

开发者杀手级功能

# 固定你的日常模型，自动交换重型模型
Pin: Qwen3-Coder-8bit, Step-3.5-Flash
Auto-load: gpt-oss-120b on demand

# SSD 缓存可在重启后存活
/hot-cache: 20GB RAM
/cold-cache: ~/.omlx/cache (SSD)

Claude 代码就绪：上下文扩展 + SSE 保持连接，防止长编译期间超时。

视觉超能力：Qwen3.5-VL、GLM-4V、Pixtral，支持多图像工具调用和 OCR 自动检测。

超级简单的设置

# Homebrew（推荐）
brew tap jundot/omlx
git clone https://github.com/jundot/omlx
pip install -e .

# 启动并忘掉
brew services start omlx

或者从 Releases 下载 DMG——三键点击即可生成首个 token。

OpenAI API 无缝替换

POST http://localhost:8000/v1/chat/completions
curl -X POST http://localhost:8000/v1/embeddings

完整流式使用统计、Anthropic Messages API、工具调用和视觉输入（base64/URL）。

生产就绪

内存强制：总 RAM 限制防止 OOM
LRU + 手动 + TTL：复杂的模型驱逐机制
离线管理：所有 CDN 资源本地化
结构化日志：服务 + 应用日志

基准测试更有说服力

从管理面板运行：预填充 token/秒、生成 token/秒、缓存命中率。真实世界数据，不是合成垃圾。

立即开始

⭐ 2.4k GitHub 星标 且持续增长。Apache 2.0 许可。

omlx serve --model-dir ~/models --max-model-memory 32GB

你的 Mac 统一内存 + oMLX = 媲美云服务的本地 AI。立即安装，体验设备端推理的未来。

原始文章: 查看原文

分享这篇文章