llmfit:针对你硬件的终极 LLM 适配工具

llmfit:针对你硬件的终极 LLM 适配工具

大型语言模型(LLM)的普及已突破天际,但为你的机器挑选合适的模型仍像盲目猜测。你是否需要一个30B Whisper 模型来搭配配备16 GB RAM的笔记本?你是否应把 MoE 模型强行放在单 GPU 工作站上?传统上,你会阅读论文、下载庞大的二进制文件、运行快速基准测试,却仍可能导致硬件使用不足或过载。

llmfit 的出现——一款基于 Rust 的终端工具,它会自动评估来自30个供应商、157个模型,涵盖质量、速度、适配性、上下文四个维度,并准确告诉你哪个模型能在你的系统上运行。再也不需要纠结 GPU 内存计算或不确定的量化选择了。


llmfit 能做什么

功能 描述
硬件检测 读取内存、CPU 核数,并自动识别 Nvidia/AMD/Intel/Apple GPU。
返回后端(CUDA、Metal、ROCm、SYCL)及显存。
动态量化 从 Q8₀ 到 Q2℺ 的层级遍历,选择最高质量且适配的量化。若无完全适配,退回到半上下文。
专家混合(MoE) 检测 MoE 模型(Mixtral、DeepSeek 等),计算活跃专家内存使用,实现高效卸载。
评分与排名 按使用情况(聊天、编码、推理)加权,计算综合分数,并以可排序表格展示最佳模型。
多 GPU 与 CPU+GPU 支持多 GPU 设置、CPU+GPU 换挡,若无 GPU 则完全使用 CPU。
Ollama 集成 自动列出已安装的 Ollama 模型,突出显示,并可一键拉取新模型。若 ollama serve 正在运行,即可即插即用。
交互式 TUI 与 CLI 使用 llmfit 启动 ncurses 风格界面,或使用 --cli 获取经典表格、fitsearchinfo 等功能。
JSON 输出 在任何命令中添加 --json,获取机器可读数据,适合代理或脚本使用。
OpenClaw 技能 随附 OpenClaw 技能,直接在你的代理 openclaw.json 内建议并配置 Ollama 模型。

快速开始

三种相同方式快速上手:

  1. Homebrew(macOS/Linux)
    brew tap AlexsJones/llmfit
    brew install llmfit
    
  2. Cargo(适用于 Rust 用户)
    cargo install llmfit
    
  3. curl 脚本(任何 Unix Shell)
    curl -fsSL https://llmfit.axjns.dev/install.sh | sh
    

若你在 Windows 上,脚本仍会将二进制文件安装到 %USERPROFILE%/.local/bin。只需相应调整 PATH 即可。

实用技巧: 安装后用 llmfit 测试 TUI。若在 Ollama 下看到绿色 ✓,说明本地服务器已被检测,你便可立即开始拉取模型。

使用工具

交互式 TUI

运行 llmfit 将启动干净的界面,展示:

  • 系统规格:CPU 核数、内存、GPU 名称、显存、后端。
  • 模型表:列为 scoretok/squantmodememoryuse‑case
  • 键盘快捷键:使用方向键或 j/k 浏览,/ 搜索,f 过滤适配,p 切换供应商,d 拉取模型,r 刷新已安装列表,q 退出。

经典 CLI

若偏好纯文本,可使用 --cli

# 顶级模型
llmfit --cli

# 仅限完全适配模型
llmfit fit --perfect -n 5

# 人类可读 JSON
llmfit recommend --json --limit 5 --use-case coding
--json 选项在你想将结果管道传递给其它工具或存入配置文件时非常方便。

背后原理

llmfit 的核心是单个 hf_models.json 文件,随每个发行版一起发布(< 2 MB)。其中包含每个模型的元数据:参数量、上下文窗口、供应商、MoE 标记等。Rust 代码利用这些内嵌数据来:

  1. 硬件检测sysinfo 读取内存和 CPU,专用查询(nvidia‑smi、rocm‑smi、system_profiler)获取显存和后端。
  2. 枚举模型 – 遍历数据库,按量化级别计算内存占用,并应用用户约束。
  3. 评分 – 将四个归一化维度(质量、速度、适配、上下文)按使用场景加权合并。
  4. 渲染tui_app.rs 负责交互视图,tui_ui.rsratatui 绘制布局,display.rs 格式化经典表格。

其结果是一款 < 1 s 的命令行工具,体验即刻感知。

为什么 llmfit 非常重要

  • 零配置 – 无需手动计算显存或跑繁重基准测试。
  • 随时更新scripts/scrape_hf_models.py 脚本从 HuggingFace 拉取数据;运行 make update-models 刷新数据库。
  • 跨平台 – 适用于 macOS、Linux、Windows、ARM 和 Intel。支持 Metal、CUDA、ROCm、SYCL 和 CPU 后端。
  • 集成性 – 无论你使用 Ollama、vLLM 还是 LM Studio,llmfit 都能映射模型名称并告知可运行情况。
  • 社区友好 – MIT 许可证,Rust 编写,主动维护且有完整文档。

使用案例

场景 推荐功能
个人笔记本 llmfit + --cli 以寻找最适合 8–16 GB 内存的小尺寸模型。
小型服务器 启用多 GPU 支持,拉取 MoE 模型,并查看 CPU+GPU 换挡情况。
OpenClaw 代理 使用提供的技能,让代理根据 llmfit recommend 的输出自动配置 Ollama 模型。
科研实验室 每晚运行 make update-models 维护数据库,随后将 llmfit recommend 脚本化进 CI 流程。

如何参与

项目欢迎贡献:

  1. 添加新模型 – 在 scripts/scrape_hf_models.py 中更新 TARGET_MODELS
  2. 改进评分 – 提交 issue 调整某个使用场景的加权系数。
  3. 功能请求 – 请求新增供应商或后端支持。
  4. 错误报告 – 若工具错误估算内存用量,欢迎反馈。

修改后,执行 make update-models 并提交更新后的 hf_models.json

结语

llmfit 把“我的机器能跑哪款 LLM?”这件看似棘手的任务化为一条确定性的命令。通过精准的硬件探测、智能量化与全面的模型覆盖,成为开发者、研究者以及 AI 爱好者在不用亲手实验的情况下,为硬件挑选最佳模型的必备工具。

立即尝试 llmfit,在几秒钟内看到你喜爱的 LLM 在屏幕上展示。因为选对模型不应成为猜谜游戏。

原创文章: 查看原文

分享本文