用 llm-mlx 在 Mac 上跑本地大模型:最简单的入门方式
> 来源: https://simonw.substack.com/p/run-llms-on-macos-using-llm-mlx-and
> 作者: Simon Willison
> 日期: 2025-02(文章发布时间)
> 工具: https://github.com/simonw/llm-mlx
📌 核心内容
Simon Willison(Datasette 作者、Django 联合创始人、AI 工具领域最活跃的独立开发者之一)发布了 llm-mlx——一个基于 Apple MLX 框架的 LLM 插件,可能是目前 Mac 用户在终端跑本地大模型最简单的方式。
三条命令即可开始:
llm install llm-mlx
llm mlx download-model mlx-community/Llama-3.2-3B-Instruct-4bit
llm -m mlx-community/Llama-3.2-3B-Instruct-4bit '你的问题'
🔧 技术栈
LLM CLI
LLM 是 Simon Willison 开发的 Python CLI 工具和库,统一了各种大模型的调用接口。通过插件系统支持 OpenAI、Anthropic、本地模型等,所有对话自动记录到 SQLite 数据库。
Apple MLX
MLX 是 Apple 在 2023 年 11 月开源的数组计算框架,专为 Apple Silicon 优化。核心用 C++ 编写,配合 Python 接口,在 M 系列芯片上跑推理性能极强。
Simon 引用了 MLX 核心开发者 Awni Hannun 的数据:
> M4 Max 上 4-bit Qwen 0.5B 生成 1K token 的速度达到 510 tokens/sec,iPhone 16 Pro 上也能跑到 150 tok/sec。
Simon 评价:"这个 Apple 小团队几乎凭一己之力在和 NVIDIA 的 CUDA 竞争。"
📊 推荐模型和性能
| 模型 | 大小 | 内存需求 | 适合场景 |
|---|---|---|---|
| Qwen2.5-0.5B-Instruct-4bit | 278 MB | 极小 | 测试、轻量任务 |
| **Llama-3.2-3B-Instruct-4bit** | 1.8 GB | ~4 GB | ⭐ 入门首选,152 tok/s |
| Mistral-7B-Instruct-v0.3-4bit | 4.08 GB | ~8 GB | 日常使用 |
| **Mistral-Small-24B-Instruct-4bit** | 13.26 GB | ~16 GB | ⭐ GPT-4 级别体验 |
| DeepSeek-R1-Distill-Qwen-32B-4bit | 18.5 GB | ~24 GB | 推理/思维链 |
| Llama-3.3-70B-Instruct-4bit | 40 GB | 64 GB | 最强本地模型 |
Simon 的推荐:
- 入门:Llama 3.2 3B(1.8GB,速度飞快)
- 日常主力:Mistral-Small-24B("真的感觉有 GPT-4 水平,只需 ~12GB 内存")
- 推理任务:DeepSeek-R1-Distill-Qwen-32B(带
思维链) - 极致性能:Llama 3.3 70B(需要 64GB 内存机器,8.8 tok/s)
🎯 关键特性
别名系统
llm aliases set l32 mlx-community/Llama-3.2-3B-Instruct-4bit
llm -m l32 '你的问题' # 短多了
管道支持
cat code.py | llm -m l32 'explain this code'
对话模式(大模型常驻内存)
llm chat -m mlx-community/Llama-3.3-70B-Instruct-4bit
参数控制
llm -m l32 'a greeting' -o temperature 1.0 -o seed 2
固定 seed 可以产生可重复的结果,方便写测试。
Python API
import llm
model = llm.get_model("mlx-community/Llama-3.2-3B-Instruct-4bit")
print(model.prompt("hi").text())
自动日志
所有 prompt 和 response 自动记录到 SQLite 数据库,用 llm logs 查看。
💡 分析与评价
为什么这个工具重要
1. 极低门槛:三条命令从零开始跑本地大模型,没有 Docker、没有复杂配置
2. Apple Silicon 原生优化:MLX 直接利用 M 系列芯片的统一内存架构,无需 GPU 显存
3. 生态统一:LLM CLI 的插件系统让你用同一个命令调用 OpenAI API、本地 MLX 模型、GGUF 模型等
4. mlx-community 生态:HuggingFace 上 mlx-community 组织已发布 1000+ 个 MLX 格式模型
5. Simon Willison 品质:作为 Django 联合创始人和顶级独立开发者,代码质量、文档和测试都是一流的
与 Ollama 的对比
| 特性 | llm-mlx | Ollama |
|---|---|---|
| 平台 | macOS only | 全平台 |
| 底层 | Apple MLX | llama.cpp |
| 性能(Mac) | ⭐ 更快 | 良好 |
| 模型格式 | MLX (HuggingFace) | GGUF |
| API 风格 | CLI + Python 库 | REST API |
| 日志记录 | ✅ SQLite 自动记录 | ❌ |
| 插件生态 | ✅ LLM 插件系统 | ❌ |
如果你只用 Mac,llm-mlx 可能是更好的选择(性能更好、CLI 更优雅)。如果需要跨平台或 REST API,Ollama 仍然是首选。
评分
| 维度 | 评分(/10) |
|---|---|
| 实用价值 | 9.5 |
| 易用性 | 10 |
| 技术实现 | 8.5 |
| 文档质量 | 9.5 |
| **综合** | **9.4** |
🔗 与我们的关联
1. 本地 AI 开发:如果有 Mac,可以零成本跑本地大模型做开发测试,不消耗 API 额度
2. 离线使用:飞机上、没网时也能用 AI 辅助编程
3. 隐私保护:所有数据都在本地,不经过任何第三方服务器
4. 快速原型:Python API 可以直接集成到项目中做本地推理
5. MLX 生态:Apple 的 MLX 框架发展很快,值得持续关注
快速开始
# 安装 LLM
brew install llm # 或 pip install llm
# 安装 MLX 插件
llm install llm-mlx
# 下载入门模型(1.8GB)
llm mlx download-model mlx-community/Llama-3.2-3B-Instruct-4bit
# 设置别名
llm aliases set l32 mlx-community/Llama-3.2-3B-Instruct-4bit
# 开聊!
llm -m l32 'Python 实现快速排序'
报告由深度研究助手自动生成 | 2026-03-07