oMLX:Mac 菜单栏 LLM 服务器,带 SSD 缓存

oMLX:通过菜单栏控制革新你的 Mac 本地 AI

Apple Silicon 上的本地 LLM 刚刚迎来重大升级。oMLX 是一个开源推理服务器,将生产级功能与超级简单的 Mac 集成相结合。忘掉终端切换吧——直接从菜单栏管理你的 LLM。

为什么 oMLX 与众不同

基于 Apple 的 MLX 框架,oMLX 提供:

  • 分层 KV 缓存:热 RAM 层 + 冷 SSD 层,支持前缀共享和写时复制
  • 连续批处理:像 vLLM 一样处理并发请求
  • 多模型服务:LLM、VLM、嵌入和重排序器在一个服务器中
  • 原生 macOS 应用:菜单栏统计、自动重启、应用内更新
  • 管理仪表板:实时监控、模型下载器、基准测试、每模型设置

开发者杀手级功能

# 固定你的日常模型,自动交换重型模型
Pin: Qwen3-Coder-8bit, Step-3.5-Flash
Auto-load: gpt-oss-120b on demand

# SSD 缓存可在重启后存活
/hot-cache: 20GB RAM
/cold-cache: ~/.omlx/cache (SSD)

Claude 代码就绪:上下文扩展 + SSE 保持连接,防止长编译期间超时。

视觉超能力:Qwen3.5-VL、GLM-4V、Pixtral,支持多图像工具调用和 OCR 自动检测。

超级简单的设置

# Homebrew(推荐)
brew tap jundot/omlx
git clone https://github.com/jundot/omlx
pip install -e .

# 启动并忘掉
brew services start omlx

或者从 Releases 下载 DMG——三键点击即可生成首个 token。

OpenAI API 无缝替换

POST http://localhost:8000/v1/chat/completions
curl -X POST http://localhost:8000/v1/embeddings

完整流式使用统计、Anthropic Messages API、工具调用和视觉输入(base64/URL)。

生产就绪

  • 内存强制:总 RAM 限制防止 OOM
  • LRU + 手动 + TTL:复杂的模型驱逐机制
  • 离线管理:所有 CDN 资源本地化
  • 结构化日志:服务 + 应用日志

基准测试更有说服力

从管理面板运行:预填充 token/秒、生成 token/秒、缓存命中率。真实世界数据,不是合成垃圾。

立即开始

2.4k GitHub 星标 且持续增长。Apache 2.0 许可。

omlx serve --model-dir ~/models --max-model-memory 32GB

你的 Mac 统一内存 + oMLX = 媲美云服务的本地 AI。立即安装,体验设备端推理的未来。

原创文章: 查看原文

分享本文