llmfit:一条命令找到你的硬件能跑哪些 LLM——16K Star 的本地模型"适配器"

> 来源: https://x.com/datachaz/status/2032376859854590314

> 仓库: https://github.com/AlexsJones/llmfit

> 作者: Alex Jones(@AlexsJones)

> 语言: Rust

> 协议: MIT

> Stars: 16,189 | Forks: 909

> 创建: 2026-02-15(不到 1 个月前)

> 日期: 2026-03-13

📌 一句话总结

一条命令扫描你的硬件(RAM/CPU/GPU/VRAM),对比 157+ 个 LLM 模型,告诉你哪些模型能跑、跑多快、用哪个量化最合适。Rust 写的,TUI + CLI + REST API,不到一个月 16K Star。

🧠 解决什么问题

本地跑 LLM 最头疼的事:

1. ❌ 下载了一个 70B 模型 → OOM(内存不够)

2. ❌ 不知道该选 Q4_K_M 还是 Q8_0 量化

3. ❌ 不确定模型能不能全部放进 GPU → 还是要 CPU offload

4. ❌ MoE 模型不知道实际激活参数多少

llmfit 一条命令解决所有这些问题

🎯 四级适配评分

等级含义颜色
🟩 **Perfect Fit**完全放入 GPU,全速运行绿
🟨 **Good Fit**MoE offload 或少量 CPU 溢出
🟧 **Marginal Fit**勉强能跑 / 纯 CPU 运行
🟥 **Too Tight**跑不了,直接过滤掉

每个模型还会显示:

💻 使用方式

1. 交互式 TUI(默认)


llmfit

启动终端 UI,顶部显示硬件信息,下方是模型列表。支持:

2. CLI 模式


# 只看完美适配的模型,前 5 个
llmfit fit --perfect -n 5

# 搜索特定模型
llmfit search "llama 8b"

# 推荐用于编码的模型(JSON 输出)
llmfit recommend --json --use-case coding --limit 3

# 查看硬件信息
llmfit system

# 反向规划:跑 Qwen3-4B 需要什么硬件
llmfit plan "Qwen/Qwen3-4B" --context 8192 --json

3. REST API


# 启动 API 服务
llmfit serve --host 0.0.0.0 --port 8787

# 查询适合当前节点的模型
curl "http://localhost:8787/api/v1/models/top?limit=5&min_fit=good&use_case=coding"

# 硬件信息
curl http://localhost:8787/api/v1/system

🔧 安装

平台命令
macOS/Linux`brew install llmfit`
Windows`scoop install llmfit`
快速安装`curl -fsSL https://llmfit.axjns.dev/install.sh \sh`
Docker`docker run ghcr.io/alexsjones/llmfit`
源码`cargo build --release`

🏗️ 技术细节

- NVIDIA GPU → nvidia-smi / NVML

- AMD GPU → rocm-smi

- Apple Silicon → Metal / sysctl

- 支持多 GPU

📊 增长速度

指标数值
创建时间2026-02-15
当前 Stars16,189
日均增长~600 Stars/天
Forks909

不到一个月 16K Star——增速惊人,说明本地 LLM 社区对"硬件适配"痛点的共鸣极强。

💡 与我们的关联

1. 直接可用:我们有 Ollama 实例(http://100.94.140.76:11434),可以用 llmfit 评估我们的服务器能跑哪些模型

2. REST API 有意思llmfit serve 可以给集群里每个节点提供"我能跑什么模型"的接口,适合多机调度

3. Plan Mode 实用:评估 DGX Spark / M4 Max 等硬件时,可以用 Plan Mode 反向计算

4. Step 3.5 Flash 适配:可以用 llmfit 验证我们之前评估的 "M4 Max 128GB 跑 Step 3.5 Flash Q4_K_S" 是否合理

5. OpenClaw Skill 潜力llmfit recommend --json 可以封装成 OpenClaw Skill,让 Agent 自动评估硬件能力

🖥️ 实测:RTX 4090 + 64GB RAM 服务器

我们在 ub2 服务器上实际运行了 llmfit,以下是真实结果。

硬件配置

参数数值
CPUIntel i9-13900K(32 核)
GPUNVIDIA GeForce RTX 4090(24 GB VRAM)
RAM63 GB(可用 58 GB)
BackendCUDA

llmfit Top 10 推荐

#模型参数评分预估 tok/s适配量化VRAM 占用
1**Qwen3-Coder-30B-A3B** (AWQ)30.5B97332GoodAWQ-4bit65%
2**Codestral-22B** (AWQ)22.2B9650PerfectAWQ-4bit73%
3**Qwen3-Coder-30B-A3B** (FP8)30.5B96332GoodQ4_K_M65%
4**Qwen3-VL-30B-A3B** (AWQ)31.1B95448GoodAWQ-4bit66%
5**Qwen3-Coder-Next** (MoE)79.7B95162GoodQ4_K_M19%
6**Mistral-Small-24B** (AWQ)23.6B9547PerfectAWQ-4bit77%
7**Qwen3-30B-A3B** (GPTQ)30.5B95332GoodGPTQ-4bit65%
8**Qwen3.5-35B-A3B**36.0B94370GoodQ4_K_M77%
9**MiniMax-M2.5** (AWQ)36.8B94378GoodAWQ-4bit79%
10**Qwen2.5-Coder-14B** (AWQ)14.8B9375PerfectAWQ-4bit49%

关键发现

⚠️ 注意

1. 模型数据库有限:157 个模型,可能不覆盖最新的模型

2. 预估 tok/s 是估算值:实际速度取决于很多因素(batch size、context length、量化实现)

3. 统一内存估算可能不准:Apple Silicon 的统一内存 vs 独显 VRAM 的估算逻辑可能有差异

📊 评分

维度评分(/10)
实用性9.5 — 解决了本地 LLM 最大的痛点之一
技术质量8.5 — Rust、TUI/CLI/API 三模式、多 GPU 支持
增长势头9.0 — 不到一个月 16K Star
完整度8.0 — Plan Mode + REST API + 主题,功能丰富
与我们的关联7.5 — 直接可用,REST API 有扩展价值
**综合****8.5**

报告由深度研究助手自动生成 | 2026-03-13

来源: https://github.com/AlexsJones/llmfit | https://x.com/datachaz/status/2032376859854590314