MiMo Code：将编程 Agent 扩展到长程任务 — 深度研究

> 来源: https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon

> 日期: 2026-06-10（发布于小米 MiMo 团队博客）

> 评级: ⭐⭐⭐⭐⭐ (强烈推荐，必读)

一句话版本

小米 MiMo 团队开源了一款终端编程 Agent（基于 OpenCode），通过三层机制——并行采样降低单步错误率、Checkpoint 写入器实现无限轮次连续执行、跨 session 记忆蒸馏——让 AI 编码助手能从头到尾完成几百步的复杂编程任务，且步数超过 200 步后胜率超过 Claude Code 15%。

核心内容

背景：在做什么？

MiMo Code 是小米 MiMo 团队基于 OpenCode 构建的终端编程 Agent，MIT 协议开源。和 Claude Code、Codex 是直接竞品，但专注解决长程任务（几十到上百步）的质量保持问题。

博客深刻剖析了三个核心挑战：

时间尺度	瓶颈	解决方案
同 session 单轮	决策质量取决于计算量	Max Mode（并行采样选优）、Goal（完成度验证）
同 session 多轮	任务连续性取决于状态管理	Cycle/Checkpoint/Writer 四层记忆
跨 session	经验提炼取决于进化机制	Dream（7天整理）/ Distill（30天固化）

🧮 计算：降低每一步的犯错概率

Max Mode：每轮并行采样 5 个候选方案（不执行），同模型 judge 选最优

SWE-Bench Pro 提升 10-20%，代价 4-5x token
类似 Mixture-of-Agents 的 voting 思路

Goal：Agent 尝试终止时，独立验证模型审查历史判断条件是否满足

死循环概率 < 0.5%

Dynamic Workflow：编排逻辑从 prompt 变成 JavaScript 代码，确定性执行

agent() 派出子 Agent，parallel() / pipeline() 控制并发
兼容 Anthropic Dynamic Workflow，但扩展了 workflow() 原语支持脚本嵌套
核心观点：SKILL.md 这类自然语言流程最终应该用代码表达

🧠 记忆：无限轮次的秘密

这是全文最硬核的部分。

Cycle 机制：运行时在 20%/45%/70% 上下文预算处触发 checkpoint，派出独立 writer subagent 将结构化状态写入磁盘。窗口即将耗尽时执行 rebuild，用持久化文件重建新窗口。理论上连接逻辑 session 可以无限延伸。

Writer：和主 Agent 完全独立的 subagent，写固定结构的 checkpoint 文件（11 个字段）。主 Agent 不维护自己的记忆，只有一个例外：notes.md（自由 scratchpad）。

四层记忆架构：


Writer 向上提炼 ─────────────────────────┐
                                          ▼
  ┌─────────────┐    ┌──────────────┐    ┌──────────────┐    ┌───────────┐
  │  Session    │ →  │  Project     │ →  │  Global      │    │  History  │
  │ (checkpoint)│    │ (MEMORY.md)  │    │ (prefs)      │    │ (SQLite)  │
  └─────────────┘    └──────────────┘    └──────────────┘    └───────────┘
  当前 session         跨 session 知识      用户偏好            原始轨迹
  完整工作状态          架构决定/用户规则    跨项目生效          兜底回溯

选择文件（Markdown）而非向量数据库的核心原因：可审查性。用户能看到系统记住了什么，能手动删除或修改。

Rebuild 注入：最多约 65K token，分层组装：

任务清单 → session checkpoint → 最近用户消息切片 → 项目记忆 → 全局记忆 → notes → 文件路径索引 → tail reminder

🌱 进化：从经验中学习

Dream（7天）：独立 Agent 合并、去重、验证、压缩记忆文件
Distill（30天）：识别工作模式，固化为 skill / CLI 命令 / SOP 文档

📊 评测结果

评测	结果
SWE-Bench Pro	62% (MiMo + V2.5-Pro 优于 Claude Code + Sonnet 4.6)
Terminal Bench 2	73%
真人 AB 测试	576 开发者 / 474 仓库 / 1213 配对
200步以内	胜率接近 50%
超过 200 步	MiMo Code 胜率 65%+

分析

📌 与我们的项目的直接关联

1. 记忆架构 vs lossless-claw

MiMo Code 的 Cycle/Checkpoint/Writer 体系与 lossless-claw 解决的是同一个问题——长上下文记忆，但走的是不同路线：

	lossless-claw	MiMo Code
提取主体	运行时自动触发（不可见）	独立 writer subagent
存储格式	DAG 摘要节点	结构化 checkpoint 文件（11 字段）
生命周期	自动压缩	四层升级（session→project→global→history）
可审查性	通过 LCM 工具	直接编辑 Markdown 文件
提取时机	每次 compact	20%/45%/70% 预算处

2. Dynamic Workflow vs SKILL.md

MiMo Code 明确指出"以 prompt 形式定义的许多 skill，未来会逐步演变为代码形式的 workflow 脚本"。这和 AGENTS.md + SKILL.md 的模式形成对比：

当前：自然语言描述流程 → 模型理解执行
MiMo 方案：代码描述流程 → 确定性执行
核心矛盾：自然语言灵活但不可靠 vs 代码可靠但僵化

3. Dream/Distill → 知识库自维护

MiMo Code 的 7 天/30 天自动整理机制对知识库维护有启发——如果能定期自动扫描过期内容、去重合并、提取工作模式，可以大幅降低手动维护成本。

4. 与上次 MiMo UltraSpeed 研究的关联

上次报告（6月9日）关注的是 MiMo-V2.5 模型的推理速度（1T 模型 1000+ tps），这次是 MiMo Code 这个客户端应用。两者构成了完整的生态：高速推理模型 + 长程 Agent 框架。

✅ 优势

技术深度极强：对长程 Agent 问题的分析（计算/记忆/进化三层）是目前公开文献中最好的之一
AB 测试严谨：576 名开发者、1213 组配对，在真实项目上做双盲对比
开放设计：选择 Markdown 文件而非向量数据库做记忆，体现了务实的工程哲学
与 Anthropic 兼容：Dynamic Workflow 兼容 Anthropic 语义，说明设计有前瞻性
MIT 协议：完全开放，可以 fork 或集成

⚠️ 不足/风险

初期体验依赖 MiMo Auto：免费一个月，后续可能收费
OpenCode 基础：不是从零构建，底层依赖 OpenCode 生态的稳定性
需要自己跑模型：MiMo-V2.5-Pro 的推理成本未知
Dream/Distill 频率固定：7天/30天硬编码，可能不够灵活
中文社区优先：虽然有两站，但很多设计文档优先中文

评分

维度	评分	说明
技术创新	⭐⭐⭐⭐⭐	Cycle + Checkpoint + Writer 架构设计精妙
工程实现	⭐⭐⭐⭐⭐	四层记忆、Dynamic Workflow、独立验证器
文档质量	⭐⭐⭐⭐⭐	博客文章本身就深度极高，技术决策有详细理由
对我们价值	⭐⭐⭐⭐⭐	记忆管理、Dynamic Workflow、进化机制直击我们正在解决的问题
项目活跃度	⭐⭐⭐⭐	刚发布，57 issues，社区活跃
基准测试	⭐⭐⭐⭐⭐	离线 + 真人双盲 AB 测试，业界顶级

总评：⭐⭐⭐⭐⭐（强烈推荐，必读）

链接

中文原文: https://mimo.xiaomi.com/zh/blog/mimo-code-long-horizon
英文版: https://mimo.xiaomi.com/blog/mimo-code-long-horizon
GitHub: https://github.com/XiaomiMiMo/MiMo-Code
产品页: https://mimo.xiaomi.com
安装: curl -fsSL https://mimo.xiaomi.com/install | bash
上次 MiMo 研究: https://temp.jaylab.io/mimo-ultraspeed-report.html
OpenCode: https://github.com/opencode-ai/opencode