oMLX:Mac 菜单栏 LLM 服务器,带 SSD 缓存
oMLX:通过菜单栏控制革新你的 Mac 本地 AI
Apple Silicon 上的本地 LLM 刚刚迎来重大升级。oMLX 是一个开源推理服务器,将生产级功能与超级简单的 Mac 集成相结合。忘掉终端切换吧——直接从菜单栏管理你的 LLM。
为什么 oMLX 与众不同
基于 Apple 的 MLX 框架,oMLX 提供:
- 分层 KV 缓存:热 RAM 层 + 冷 SSD 层,支持前缀共享和写时复制
- 连续批处理:像 vLLM 一样处理并发请求
- 多模型服务:LLM、VLM、嵌入和重排序器在一个服务器中
- 原生 macOS 应用:菜单栏统计、自动重启、应用内更新
- 管理仪表板:实时监控、模型下载器、基准测试、每模型设置
开发者杀手级功能
# 固定你的日常模型,自动交换重型模型
Pin: Qwen3-Coder-8bit, Step-3.5-Flash
Auto-load: gpt-oss-120b on demand
# SSD 缓存可在重启后存活
/hot-cache: 20GB RAM
/cold-cache: ~/.omlx/cache (SSD)
Claude 代码就绪:上下文扩展 + SSE 保持连接,防止长编译期间超时。
视觉超能力:Qwen3.5-VL、GLM-4V、Pixtral,支持多图像工具调用和 OCR 自动检测。
超级简单的设置
# Homebrew(推荐)
brew tap jundot/omlx
git clone https://github.com/jundot/omlx
pip install -e .
# 启动并忘掉
brew services start omlx
或者从 Releases 下载 DMG——三键点击即可生成首个 token。
OpenAI API 无缝替换
POST http://localhost:8000/v1/chat/completions
curl -X POST http://localhost:8000/v1/embeddings
完整流式使用统计、Anthropic Messages API、工具调用和视觉输入(base64/URL)。
生产就绪
- 内存强制:总 RAM 限制防止 OOM
- LRU + 手动 + TTL:复杂的模型驱逐机制
- 离线管理:所有 CDN 资源本地化
- 结构化日志:服务 + 应用日志
基准测试更有说服力
从管理面板运行:预填充 token/秒、生成 token/秒、缓存命中率。真实世界数据,不是合成垃圾。
立即开始
⭐ 2.4k GitHub 星标 且持续增长。Apache 2.0 许可。
omlx serve --model-dir ~/models --max-model-memory 32GB
你的 Mac 统一内存 + oMLX = 媲美云服务的本地 AI。立即安装,体验设备端推理的未来。
原创文章:
查看原文