llmfit:针对你硬件的终极 LLM 适配工具
llmfit:针对你硬件的终极 LLM 适配工具
大型语言模型(LLM)的普及已突破天际,但为你的机器挑选合适的模型仍像盲目猜测。你是否需要一个30B Whisper 模型来搭配配备16 GB RAM的笔记本?你是否应把 MoE 模型强行放在单 GPU 工作站上?传统上,你会阅读论文、下载庞大的二进制文件、运行快速基准测试,却仍可能导致硬件使用不足或过载。
llmfit 的出现——一款基于 Rust 的终端工具,它会自动评估来自30个供应商、157个模型,涵盖质量、速度、适配性、上下文四个维度,并准确告诉你哪个模型能在你的系统上运行。再也不需要纠结 GPU 内存计算或不确定的量化选择了。
llmfit 能做什么
| 功能 | 描述 |
|---|---|
| 硬件检测 | 读取内存、CPU 核数,并自动识别 Nvidia/AMD/Intel/Apple GPU。 返回后端(CUDA、Metal、ROCm、SYCL)及显存。 |
| 动态量化 | 从 Q8₀ 到 Q2℺ 的层级遍历,选择最高质量且适配的量化。若无完全适配,退回到半上下文。 |
| 专家混合(MoE) | 检测 MoE 模型(Mixtral、DeepSeek 等),计算活跃专家内存使用,实现高效卸载。 |
| 评分与排名 | 按使用情况(聊天、编码、推理)加权,计算综合分数,并以可排序表格展示最佳模型。 |
| 多 GPU 与 CPU+GPU | 支持多 GPU 设置、CPU+GPU 换挡,若无 GPU 则完全使用 CPU。 |
| Ollama 集成 | 自动列出已安装的 Ollama 模型,突出显示,并可一键拉取新模型。若 ollama serve 正在运行,即可即插即用。 |
| 交互式 TUI 与 CLI | 使用 llmfit 启动 ncurses 风格界面,或使用 --cli 获取经典表格、fit、search、info 等功能。 |
| JSON 输出 | 在任何命令中添加 --json,获取机器可读数据,适合代理或脚本使用。 |
| OpenClaw 技能 | 随附 OpenClaw 技能,直接在你的代理 openclaw.json 内建议并配置 Ollama 模型。 |
快速开始
三种相同方式快速上手:
- Homebrew(macOS/Linux)
brew tap AlexsJones/llmfit brew install llmfit - Cargo(适用于 Rust 用户)
cargo install llmfit - curl 脚本(任何 Unix Shell)
curl -fsSL https://llmfit.axjns.dev/install.sh | sh
若你在 Windows 上,脚本仍会将二进制文件安装到 %USERPROFILE%/.local/bin。只需相应调整 PATH 即可。
实用技巧: 安装后用
llmfit测试 TUI。若在 Ollama 下看到绿色 ✓,说明本地服务器已被检测,你便可立即开始拉取模型。
使用工具
交互式 TUI
运行 llmfit 将启动干净的界面,展示:
- 系统规格:CPU 核数、内存、GPU 名称、显存、后端。
- 模型表:列为 score、tok/s、quant、mode、memory、use‑case。
- 键盘快捷键:使用方向键或
j/k浏览,/搜索,f过滤适配,p切换供应商,d拉取模型,r刷新已安装列表,q退出。
经典 CLI
若偏好纯文本,可使用 --cli:
# 顶级模型
llmfit --cli
# 仅限完全适配模型
llmfit fit --perfect -n 5
# 人类可读 JSON
llmfit recommend --json --limit 5 --use-case coding
--json 选项在你想将结果管道传递给其它工具或存入配置文件时非常方便。
背后原理
llmfit 的核心是单个 hf_models.json 文件,随每个发行版一起发布(< 2 MB)。其中包含每个模型的元数据:参数量、上下文窗口、供应商、MoE 标记等。Rust 代码利用这些内嵌数据来:
- 硬件检测 –
sysinfo读取内存和 CPU,专用查询(nvidia‑smi、rocm‑smi、system_profiler)获取显存和后端。 - 枚举模型 – 遍历数据库,按量化级别计算内存占用,并应用用户约束。
- 评分 – 将四个归一化维度(质量、速度、适配、上下文)按使用场景加权合并。
- 渲染 –
tui_app.rs负责交互视图,tui_ui.rs用ratatui绘制布局,display.rs格式化经典表格。
其结果是一款 < 1 s 的命令行工具,体验即刻感知。
为什么 llmfit 非常重要
- 零配置 – 无需手动计算显存或跑繁重基准测试。
- 随时更新 –
scripts/scrape_hf_models.py脚本从 HuggingFace 拉取数据;运行make update-models刷新数据库。 - 跨平台 – 适用于 macOS、Linux、Windows、ARM 和 Intel。支持 Metal、CUDA、ROCm、SYCL 和 CPU 后端。
- 集成性 – 无论你使用 Ollama、vLLM 还是 LM Studio,llmfit 都能映射模型名称并告知可运行情况。
- 社区友好 – MIT 许可证,Rust 编写,主动维护且有完整文档。
使用案例
| 场景 | 推荐功能 |
|---|---|
| 个人笔记本 | llmfit + --cli 以寻找最适合 8–16 GB 内存的小尺寸模型。 |
| 小型服务器 | 启用多 GPU 支持,拉取 MoE 模型,并查看 CPU+GPU 换挡情况。 |
| OpenClaw 代理 | 使用提供的技能,让代理根据 llmfit recommend 的输出自动配置 Ollama 模型。 |
| 科研实验室 | 每晚运行 make update-models 维护数据库,随后将 llmfit recommend 脚本化进 CI 流程。 |
如何参与
项目欢迎贡献:
- 添加新模型 – 在
scripts/scrape_hf_models.py中更新TARGET_MODELS。 - 改进评分 – 提交 issue 调整某个使用场景的加权系数。
- 功能请求 – 请求新增供应商或后端支持。
- 错误报告 – 若工具错误估算内存用量,欢迎反馈。
修改后,执行 make update-models 并提交更新后的 hf_models.json。
结语
llmfit 把“我的机器能跑哪款 LLM?”这件看似棘手的任务化为一条确定性的命令。通过精准的硬件探测、智能量化与全面的模型覆盖,成为开发者、研究者以及 AI 爱好者在不用亲手实验的情况下,为硬件挑选最佳模型的必备工具。
立即尝试 llmfit,在几秒钟内看到你喜爱的 LLM 在屏幕上展示。因为选对模型不应成为猜谜游戏。