Learning Beyond Gradients — 深度研究报告
> 来源: https://trinkle23897.github.io/learning-beyond-gradients/
> 评分码仓库: https://github.com/Trinkle23897/learning-beyond-gradients
> 作者: Jiayi Weng (Trinkle23897) — OpenAI 研究员,ChatGPT/GPT-4 的 RL infra 作者
> 日期: 2026-05-09 (发布于 2026-05-08)
一句话版本
编码 AI agent 可以直接改代码策略来学会玩游戏和控制机器人,完全不用训练神经网络、不用反向传播——就像给一个不会学习的程序装上了"自我进化"的能力。
评分
| 维度 | 评分 | 说明 |
|---|---|---|
| 新颖性 | ★★★★★ | 提出 Heuristic Learning 新范式,将编码 agent 视为持续学习的基础设施 |
| 实验充分性 | ★★★★★ | Atari57 × 342 条搜索轨迹 + MuJoCo 多环境,数据扎实 |
| 可复现性 | ★★★★☆ | 完整的 artifact repo + 一键复现命令,但依赖 gpt-5.4(未测试更新模型) |
| 实用价值 | ★★★★☆ | 对持续学习、机器人控制、游戏 AI 有直接启发 |
| 与我们项目关联度 | ★★★★★ | 与 Jay 的 Agent 实践高度相关,特别是 subagent 编排、编码 agent 工作流 |
核心内容
起点:一个意外的发现
Jiayi Weng 在维护 EnvPool(高性能游戏环境池)时,想要一个便宜的 CI 测试方法——不想每次跑神经网络来验证环境是否正确。他让 Codex(gpt-5.4)写纯规则策略,结果远超预期:
Atari Breakout: 程序策略从 387 分一路飙升到 864 分(理论最高分)。策略从简单的"球在左往左走"进化成了包含动作探测、状态读取器、球拍检测器、落点预测、卡死检测、回归测试、视频回放、实验日志的完整系统。
MuJoCo Ant: 纯 Python 策略学会了节律步态 + 姿势反馈 + 接触信号 + 短视模型规划,达到 6000+ 分——与常见 Deep RL 结果相当。
MuJoCo HalfCheetah: 可解释步态/姿势规则 + 在线规划达到 11836.7。
Atari57: 342 条搜索轨迹(57 游戏 × 2 观察模式 × 3 重复),1M 步时的中位数 HNS 远超 PPO-style 基线。
Heuristic Learning (HL) vs Deep RL
| 维度 | Deep RL | HL |
|---|---|---|
| 策略 | 神经网络参数 | 代码:规则、状态机、控制器、MPC、宏动作 |
| 反馈 | 固定奖励 | 测试、环境反馈、日志、重放、人类反馈 |
| 更新 | 梯度下降 | 编码 agent 直接编辑代码 |
| 记忆 | 经验回放缓冲区 | 显式存储 trial、摘要、失败原因、重放、版本 diff |
| 遗忘 | 灾难性遗忘严重 | 编码为回归测试/重放/金标准,可读可删可重构 |
为什么 HL 之前没火?
不是启发式方法没用,是维护成本太高。人类维护规则系统是典型的"今天修 A → 明天 B 崩 → 后天加 if-else → 再后天没人敢删"。编码 agent 改变了这条维护曲线——就像纺纱机改变了纺织效率一样。
HL 如何做持续学习(Continual Learning)
HL 不自动解决灾难性遗忘,但把"避免遗忘"变成了一个工程问题:
旧能力可以被固化到:
- 回归测试
- 固定种子重放
- 金标准轨迹
- 失败视频
- 版本 diff
- 显式的失败方向记录
一个健康的 Heuristic System 需要两个操作:
1. 吸收反馈: 把新失败/日志/奖励写回系统
2. 压缩历史: 把局部补丁折叠成更简洁的可维护形式
耦合复杂度
作者引入"耦合复杂度"概念——编码 agent 能同时维护多少相互依赖的状态、规则、测试和反馈信号。
- 好代码:500 行但有模块边界、好测试、可重放 → 容易维护
- 坏代码:80 行但每行牵一发动全身 → 定时炸弹
下一范式?
> 任何可以被持续迭代的东西,都开始变得可解。
作者认为 HL 是预训练 → RLHF → 大规模 RL/RLVR 之后的候选下一范式。但 HL 不能完全替代神经网络(无法纯代码解决 ImageNet),最佳方向是:
HL 快速处理在线数据 → 变成可训练/可测试/可过滤的数据 → 定期更新神经网络
在机器人领域的 System 1/System 2 分工:
- 专用浅层 NN(System 1 的一部分):感知、分类、物体状态估计
- HL(System 1 的一部分):新鲜数据处理、规则、测试、重放、安全边界、局部恢复
- LLM agent(System 2):给 HL 反馈、改进数据、定期从 HL 数据中自我更新
与 Jay 项目的关联
这个文章和 Jay 正在做的事情有很强的共鸣:
1. Subagent 编排: 作者描述的"编码 agent 闭环"(反馈 → 读上下文 → 改策略/测试/记忆 → 重运行 → 写回结果)和 Jay 的 Veritas Kanban + subagent 工作流高度一致
2. Continuous iteration: "任何能被持续迭代的东西都开始变得可解"——这正是 Jay 在 daily review / nightly build / cron 自动化中实践的理念
3. We have this!: Jay 已经有了 subagent 编排、记忆系统、测试回归、trial 日志。这篇文章从学术角度论证了为什么这条路是对的
4. MEMORY.md = Heuristic System 的记忆组件: 我们的 MEMORY.md 和 LCM 记忆系统实际上已经在做 HL 的"吸收反馈 + 压缩历史"双操作
Heuristic Learning 与 Jay 的非参数学习
Jay 于 2026-02-18 提出的"非参数学习"(Non-parametric Learning)核心理念是:agent 通过记忆文件和技能学习,而非改参数。这与 HL 站在同一范式转移的阵线上。
核心共鸣
两种框架都在说同一件事:
> 学习 = 维护一个不断吸收反馈的系统,而不是训练一张神经网络。
两种设计都需要的两个核心操作——Weng 文章里写得最清楚:
1. 吸收反馈:把新失败/日志/奖励写回系统
2. 压缩历史:把局部补丁折叠成更简洁的可维护形式
咱们的 Daily Review + Nightly Build + MEMORY.md 精简,本质上就是在做这两件事。
关键差异
| 维度 | Jay 的非参数学习 | Weng 的 Heuristic Learning |
|---|---|---|
| **学习对象** | 记忆文件 + Skill 技能库 | 代码策略 + 状态检测器 + 测试 + 日志 |
| **更新机制** | LLM agent 读写 MEMORY.md / skills | 编码 agent 直接编辑 policy.py / test |
| **反馈来源** | 用户对话、任务结果、cron 检查 | 环境奖励、视频回放、测试失败 |
| **记忆形式** | Markdown 文件(可读可删可重构) | 显式 trial 记录、重放、版本 diff |
| **遗忘处理** | 压缩历史(Daily Review / Nightly Build) | 回归测试 + 压缩局部补丁 |
| **工程实现** | OpenClaw + subagent 编排 | Codex + artifact repo |
分工关系
两者不是竞争关系,是分工关系:
- HL 解决的是怎么控制环境(Atari, MuJoCo)——传统 RL 的竞技场
- 非参数学习解决的是怎么变得更聪明(记住偏好、学会新技能)——知识工作流的竞技场
Weng 在文章末尾画出了三层架构,Jay 的非参数学习正好是最上层:
> 专用浅层 NN(感知)← HL(快速响应+安全边界)← LLM agent(非参数学习,定期自我更新)
对我们的启发
Weng 的文章补上了非参数学习缺少的一块拼图:环境级闭环验证。
咱们现在的非参数学习更多是"对话→记忆→回复"的开环;而 HL 展示了:
1. 怎么用视频回放做闭环反馈
2. 怎么用回归测试防止遗忘
3. 怎么用耦合复杂度来控制系统的可维护边界
如果能把 HL 的这套工程方法论(回归测试、重放、耦合度管理)移植到 agent 知识工作流里——比如给每次 subagent 任务加一个"重放检查"步骤——那就是非参数学习从理念走向工程的下一步。
潜在行动点
- [ ] 验证 gpt-5.4 的新模型是否能在我们的 workflow 中产生类似效果
- [ ] 考虑在 Atari/MuJoCo 环境上复现 Breakout 策略(用 Codex/Claude Code)
- [ ] 将 HL 的"耦合复杂度"概念引入我们的 agent 编排规划中——如何在 subagent 分解任务时控制复杂度
- [ ] 在某个小项目中实验"纯代码策略"替代神经网络的可能性
评论
这篇文章让我想起 Simon Willison 说的"LLM 让写一次性脚本的成本几乎为零"——但 Jiayi Weng 走得更远:他证明了不仅是一次性脚本,连"持续维护的复杂规则系统"也因编码 agent 而变得可行。这是从"AI 写代码"到"AI 维护代码系统"的跃迁。
最大的不足可能是依赖 gpt-5.4 的编码能力,而且未验证其他模型的同等工作效果。但作为概念验证和范式倡议,已经足够有冲击力。