用 llm-mlx 在 Mac 上跑本地大模型：最简单的入门方式

🎯 一句话版本

关于用 llm-mlx 在 Mac 上跑本地大模型：最简单的入门方式的深度研究报告

> 来源: https://simonw.substack.com/p/run-llms-on-macos-using-llm-mlx-and

> 作者: Simon Willison

> 日期: 2025-02（文章发布时间）

> 工具: https://github.com/simonw/llm-mlx

📌 核心内容

Simon Willison（Datasette 作者、Django 联合创始人、AI 工具领域最活跃的独立开发者之一）发布了 llm-mlx——一个基于 Apple MLX 框架的 LLM 插件，可能是目前 Mac 用户在终端跑本地大模型最简单的方式。

三条命令即可开始：


llm install llm-mlx
llm mlx download-model mlx-community/Llama-3.2-3B-Instruct-4bit
llm -m mlx-community/Llama-3.2-3B-Instruct-4bit '你的问题'

🔧 技术栈

LLM CLI

LLM 是 Simon Willison 开发的 Python CLI 工具和库，统一了各种大模型的调用接口。通过插件系统支持 OpenAI、Anthropic、本地模型等，所有对话自动记录到 SQLite 数据库。

Apple MLX

MLX 是 Apple 在 2023 年 11 月开源的数组计算框架，专为 Apple Silicon 优化。核心用 C++ 编写，配合 Python 接口，在 M 系列芯片上跑推理性能极强。

Simon 引用了 MLX 核心开发者 Awni Hannun 的数据：

> M4 Max 上 4-bit Qwen 0.5B 生成 1K token 的速度达到 510 tokens/sec，iPhone 16 Pro 上也能跑到 150 tok/sec。

Simon 评价："这个 Apple 小团队几乎凭一己之力在和 NVIDIA 的 CUDA 竞争。"

📊 推荐模型和性能

模型	大小	内存需求	适合场景
Qwen2.5-0.5B-Instruct-4bit	278 MB	极小	测试、轻量任务
Llama-3.2-3B-Instruct-4bit	1.8 GB	~4 GB	⭐ 入门首选，152 tok/s
Mistral-7B-Instruct-v0.3-4bit	4.08 GB	~8 GB	日常使用
Mistral-Small-24B-Instruct-4bit	13.26 GB	~16 GB	⭐ GPT-4 级别体验
DeepSeek-R1-Distill-Qwen-32B-4bit	18.5 GB	~24 GB	推理/思维链
Llama-3.3-70B-Instruct-4bit	40 GB	64 GB	最强本地模型

Simon 的推荐：

入门：Llama 3.2 3B（1.8GB，速度飞快）
日常主力：Mistral-Small-24B（"真的感觉有 GPT-4 水平，只需 ~12GB 内存"）
推理任务：DeepSeek-R1-Distill-Qwen-32B（带思维链）
极致性能：Llama 3.3 70B（需要 64GB 内存机器，8.8 tok/s）

🎯 关键特性

别名系统


llm aliases set l32 mlx-community/Llama-3.2-3B-Instruct-4bit
llm -m l32 '你的问题'  # 短多了

管道支持


cat code.py | llm -m l32 'explain this code'

对话模式（大模型常驻内存）


llm chat -m mlx-community/Llama-3.3-70B-Instruct-4bit

参数控制


llm -m l32 'a greeting' -o temperature 1.0 -o seed 2

固定 seed 可以产生可重复的结果，方便写测试。

Python API


import llm
model = llm.get_model("mlx-community/Llama-3.2-3B-Instruct-4bit")
print(model.prompt("hi").text())

自动日志

所有 prompt 和 response 自动记录到 SQLite 数据库，用 llm logs 查看。

💡 分析与评价

为什么这个工具重要

1. 极低门槛：三条命令从零开始跑本地大模型，没有 Docker、没有复杂配置

2. Apple Silicon 原生优化：MLX 直接利用 M 系列芯片的统一内存架构，无需 GPU 显存

3. 生态统一：LLM CLI 的插件系统让你用同一个命令调用 OpenAI API、本地 MLX 模型、GGUF 模型等

4. mlx-community 生态：HuggingFace 上 mlx-community 组织已发布 1000+ 个 MLX 格式模型

5. Simon Willison 品质：作为 Django 联合创始人和顶级独立开发者，代码质量、文档和测试都是一流的

与 Ollama 的对比

特性	llm-mlx	Ollama
平台	macOS only	全平台
底层	Apple MLX	llama.cpp
性能(Mac)	⭐ 更快	良好
模型格式	MLX (HuggingFace)	GGUF
API 风格	CLI + Python 库	REST API
日志记录	✅ SQLite 自动记录	❌
插件生态	✅ LLM 插件系统	❌

如果你只用 Mac，llm-mlx 可能是更好的选择（性能更好、CLI 更优雅）。如果需要跨平台或 REST API，Ollama 仍然是首选。

评分

维度	评分（/10）
实用价值	9.5
易用性	10
技术实现	8.5
文档质量	9.5
综合	9.4

🔗 与我们的关联

1. 本地 AI 开发：如果有 Mac，可以零成本跑本地大模型做开发测试，不消耗 API 额度

2. 离线使用：飞机上、没网时也能用 AI 辅助编程

3. 隐私保护：所有数据都在本地，不经过任何第三方服务器

4. 快速原型：Python API 可以直接集成到项目中做本地推理

5. MLX 生态：Apple 的 MLX 框架发展很快，值得持续关注

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

快速开始


# 安装 LLM
brew install llm  # 或 pip install llm

# 安装 MLX 插件
llm install llm-mlx

# 下载入门模型（1.8GB）
llm mlx download-model mlx-community/Llama-3.2-3B-Instruct-4bit

# 设置别名
llm aliases set l32 mlx-community/Llama-3.2-3B-Instruct-4bit

# 开聊！
llm -m l32 'Python 实现快速排序'

报告由深度研究助手自动生成 | 2026-03-07