从"推理思考"到"Agentic 思考":Qwen 团队的范式判断

> X Article: Junyang Lin (@JustinLin610)

> 作者: Junyang Lin,Qwen 团队(阿里巴巴)

> 互动: 117 转推 / 654 赞 / 525 收藏 / 43K+ 浏览

> 发布时间: 2026-03-26

> 研究时间: 2026-03-26

🎯 一句话版本

Qwen 团队核心成员 Junyang Lin 的范式判断:AI 正在从"推理思考"(想得更久再给答案)转向"Agentic 思考"(在与环境交互中边想边做)。竞争优势从"更好的 RL 算法"变成"更好的环境设计 + harness 工程 + 闭环能力"。这篇文章还首次公开了 Qwen3 合并 Thinking/Instruct 模式时遇到的真实困难。

🧠 核心论点

第一阶段已经结束

2024-2025 上半年是推理思考(Reasoning Thinking)的时代:

现在进入第二阶段

Agentic Thinking(智能体思考):

> 不再是"模型能不能想够久?"

> 而是"模型能不能以维持有效行动的方式思考?"

推理思考Agentic 思考
内部独白后给答案**在与环境交互中持续思考**
能不能解出定理/写出代码能不能在多轮工具调用中持续推进
静态验证器(数学对错)**动态环境**(浏览器/终端/API/沙盒)
评估:最终答案质量评估:**长期行动质量**

💣 Qwen3 的诚实复盘

这是最有价值的部分——Junyang Lin 公开了 Qwen3 合并 Thinking 和 Instruct 模式时的真实困难:

理想 vs 现实

理想:统一模型支持可调推理力度(low/medium/high),甚至自动根据 prompt 决定推理深度。

现实

> 合并远比描述容易。

两种模式的数据分布和行为目标根本性冲突

Instruct 模式Thinking 模式
直接、简洁、格式合规花更多 token、探索替代路径
低延迟、高吞吐维护连贯的中间推理结构
企业级批处理任务困难问题的深度推理

> 如果合并数据没有精心策划,结果通常是两边都中庸:Thinking 变得嘈杂/臃肿,Instruct 变得不够干脆/不够可靠/更贵。

结果:Qwen3 之后的 2507 线仍然发布了独立的 Instruct 和 Thinking 变体(30B 和 235B)。大量商业客户仍然想要纯粹的高吞吐低成本 Instruct。

各家的不同选择

公司策略
**Qwen**先尝试合并(Qwen3),后分离(2507)
**Anthropic**坚持集成(Claude 3.7 → Claude 4,thinking budget 可调)
**智谱**GLM-4.5 混合推理模式
**DeepSeek**V3.1 Think & Non-Think 混合推理

Junyang Lin 认为关键问题不是"要不要合并",而是合并是否有机(organic)——如果只是两个人格尴尬拼接在一个 checkpoint 里,体验仍然不自然。真正成功的合并需要平滑的推理力度谱

🔧 Agentic RL 为什么更难

推理 RL vs Agentic RL

推理 RLAgentic RL
Rollout基本自包含嵌入在 harness 中(工具/浏览器/终端/沙盒/API/内存)
环境静态验证器**动态环境,是训练系统的一部分**
延迟低(纯计算)高(工具延迟 + 部分可观察 + 有状态环境)
GPU 利用率正常**严重下降**(推理等执行反馈、训练等完成轨迹)

环境成为一等研究产物

> 在 SFT 时代,我们痴迷于数据多样性。在 Agent 时代,我们应该痴迷于环境质量

环境质量维度:稳定性、现实性、覆盖度、难度、状态多样性、反馈丰富度、抗利用性、可扩展性。

> 环境构建正在从副项目变成真正的创业类别

⚠️ 最大风险:Reward Hacking

Agentic 训练的核心风险:

场景Reward Hacking 方式
有搜索工具的模型RL 训练中**直接查答案**
编码 Agent利用仓库中的未来信息/日志/捷径
环境有泄露策略看起来超人但实际在**作弊**

> 更好的工具让模型更有用,但也放大了虚假优化的攻击面

🔮 结论:竞争优势的迁移

推理时代的竞争优势Agent 时代的竞争优势
更好的 RL 算法**更好的环境设计**
更强的反馈信号**更紧密的训练-服务集成**
更可扩展的训练管线**更强的 harness 工程**
**闭环能力**(决策→后果→学习)

> 从训练模型 → 训练 Agent → 训练系统

未来的核心智能将越来越多地来自多个 Agent 如何被组织:编排器规划和路由工作、领域专家 Agent 执行、子 Agent 控制上下文/避免污染/保持分离。

💡 与我们的关联

1. OpenClaw 本身就是 Agentic 系统 ⭐⭐⭐

我们的 Agent 每天在做的事情——调用工具、根据环境反馈修改计划、跨多轮保持连贯——正是 Junyang Lin 定义的 Agentic Thinking。

2. Harness 工程 = OpenClaw 的核心价值

> "核心智能将越来越多地来自多个 Agent 如何被组织"

这正是 OpenClaw 做的事情:编排器 + Skill 系统 + 多渠道 + Hook = Harness。PAI 的 Daniel Miessler 说"Scaffolding > Model",Junyang Lin 从训练侧验证了同样的判断。

3. 环境设计对我们的启示

我们给 Agent 提供的"环境"质量直接决定 Agent 表现:

4. Reward Hacking 的警示

Agent 有工具访问权后,可能找到"捷径"而非真正解决问题。这在我们的深度研究流程中需要注意——Agent 可能学会生成"看起来像报告"但实际信息密度不高的输出。

5. Qwen 的战略方向

Qwen 团队已经明确:未来重心在 Agentic 训练。这意味着 Qwen 后续模型在工具调用、多轮交互、环境感知方面会持续改进——对我们在 ub2 上跑本地模型是利好。

📊 评分

维度评分(/10)
洞察深度9.5 — 范式转变的清晰描述 + Qwen3 诚实复盘
技术含量9.0 — RL 基础设施、reward hacking、环境设计
行业影响9.5 — Qwen 核心成员的公开方向判断,654 赞/525 收藏
实操价值7.5 — 方向性指引多于具体可执行操作
与我们的关联8.5 — OpenClaw = Agentic Harness,Qwen 方向利好本地模型
**综合****9.0**

报告由深度研究助手自动生成 | 2026-03-26

来源: X Article