Kimi K2.5 深度研究:月之暗面的万亿参数开源模型,100 个 AI 同时干活的 Agent Swarm 是什么?
> 来源: https://www.kimi.com/ai-models/kimi-k2-5
> GitHub: https://github.com/MoonshotAI/Kimi-K2.5
> 技术报告: https://github.com/MoonshotAI/Kimi-K2.5/blob/master/tech_report.pdf
> PARL 论文: https://arxiv.org/abs/2602.02276
> 发布日期: 2026-01-27
> 公司: Moonshot AI(月之暗面)
> 研究时间: 2026-03-16
📌 一句话总结
Kimi K2.5 是月之暗面在 2026 年 1 月发布的开源万亿参数 MoE 多模态模型,每次请求只激活 32B 参数。最大卖点是 Agent Swarm——可以同时协调最多 100 个子 Agent 并行工作,将 BrowseComp 成绩从 60.6% 提升到 78.4%(超过 GPT-5.2),执行速度提升 4.5 倍。
🏗️ 架构一览
| 参数 | 数值 |
|---|---|
| **架构** | Mixture-of-Experts (MoE) |
| **总参数** | **1T(万亿)** |
| **激活参数** | 32B(每个 token 只用 3.2%) |
| **层数** | 61 |
| **专家数** | 384 + 1 个共享专家 |
| **每 token 选择** | 8 个专家 |
| **注意力机制** | MLA(Multi-Head Latent Attention) |
| **注意力头** | 64 |
| **隐藏维度** | 7168 |
| **上下文长度** | **256K tokens** |
| **词表** | 160K |
| **视觉编码器** | MoonViT(400M 参数) |
| **激活函数** | SwiGLU |
| **训练数据** | 在 K2 Base 上继续预训练 ~15T 混合视觉+文本 tokens |
| **量化** | INT4 QAT(量化感知训练,非后处理压缩) |
| **开源** | ✅ 权重在 HuggingFace,代码在 GitHub |
| **许可** | 开源(GitHub LICENSE) |
与同类对比
| 模型 | 总参数 | 激活参数 | 上下文 | 开源 |
|---|---|---|---|---|
| **Kimi K2.5** | 1T | 32B | 256K | ✅ |
| DeepSeek V3.2 | 671B | 37B | 128K | ✅ |
| Qwen3-VL-235B | 235B | 22B | 128K | ✅ |
| GPT-5.2 | 未公开 | 未公开 | 128K+ | ❌ |
| Claude Opus 4.5 | 未公开 | 未公开 | 200K | ❌ |
| Gemini 3 Pro | 未公开 | 未公开 | 2M | ❌ |
🧠 四种运行模式
1. Instant(即时)
- 3-8 秒响应,跳过推理过程
- temperature=0.6, top_p=0.95
- 比 Thinking 模式省 60-75% token
- 适合:快速问答、简单代码
2. Thinking(深度思考)
- 显示推理过程(reasoning_content 字段)
- temperature=1.0, top_p=0.95
- 最大 96K token 思考预算
- 适合:数学竞赛、复杂推理
3. Agent(智能体)
- 集成搜索、代码解释器、网页浏览
- 200-300 次连续工具调用不漂移——这是很多模型的痛点
- 适合:深度研究、文档生成、网页综合
4. Agent Swarm(智能体群)🔥
- 同时协调最多 100 个并行子 Agent
- 每个子 Agent 独立使用工具,最多 100 步
- 主 Agent(编排器)最多 15 步
- 适合:大规模并行研究、批量处理
🐝 Agent Swarm:核心技术深度
为什么需要 Swarm?
传统 Agent 是串行的——研究 100 个主题,每个 50 秒,总共 5000 秒。Agent Swarm 并行执行,约 50 秒 + 协调开销。
技术实现
用户请求: "研究 100 个 YouTube 领域的顶级创作者"
↓
编排器(主 Agent)分析任务
↓ 识别可并行的子任务
动态创建 100 个领域特定子 Agent
↓ 每个 Agent 独立搜索+分析
↓ 并行执行
编排器综合结果
↓
输出最终报告
训练方法:PARL(Parallel Agent Reinforcement Learning)
这是最有技术含量的部分。训练一个能并行编排的模型面临三大挑战:
| 挑战 | 解决方案 |
|---|---|
| **串行坍缩** — 编排器退化为只用一个 Agent | 早期奖励鼓励并行(子 Agent 创建+并发执行) |
| **信用分配模糊** — 50 个 Agent 同时跑,谁该得奖? | 子 Agent 冻结,只训练编排器 |
| **训练不稳定** | 分阶段:先奖励并行 → 后奖励质量 |
最终奖励函数:80% 完成质量 + 20% 关键路径效率。
Benchmark 结果
| 任务 | 单 Agent | Agent Swarm | 提升 |
|---|---|---|---|
| **BrowseComp** | 60.6% | **78.4%** | +29% |
| **WideSearch** | 72.7% | **79.0%** | +9% |
BrowseComp 78.4% 超过了 GPT-5.2 的 65.8%。
Andrew Ng 评价:
> "Kimi K2.5 shifts task execution from chain-of-thought reasoning to agentic teamwork."
📊 全面 Benchmark 对比
推理与知识
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude 4.5 Opus | Gemini 3 Pro | DeepSeek V3.2 |
|---|---|---|---|---|---|
| HLE (w/tools) | **50.2** | 45.5 | 43.2 | 45.8 | 40.8 |
| AIME 2025 | 96.1 | **100** | 92.8 | 95.0 | 93.1 |
| GPQA-Diamond | 87.6 | **92.4** | 87.0 | 91.9 | 82.4 |
| MMLU-Pro | 87.1 | 86.7 | 89.3 | **90.1** | 85.0 |
视觉
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude 4.5 Opus | Gemini 3 Pro |
|---|---|---|---|---|
| MMMU-Pro | 78.5 | 79.5 | 74.0 | **81.0** |
| MathVista | **90.1** | 82.8 | 80.2 | 89.8 |
| OCRBench | **92.3** | 80.7 | 86.5 | 90.3 |
| VideoMMMU | 86.6 | 85.9 | 84.4 | **87.6** |
编码
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude 4.5 Opus | Gemini 3 Pro | DeepSeek V3.2 |
|---|---|---|---|---|---|
| SWE-Bench Verified | 76.8 | 80.0 | **80.9** | 76.2 | 73.1 |
| SWE-Bench Multilingual | 73.0 | 72.0 | **77.5** | 65.0 | 70.2 |
| LiveCodeBench v6 | 85.0 | - | 82.2 | **87.4** | 83.3 |
搜索/Agent
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude 4.5 Opus |
|---|---|---|---|
| BrowseComp | 60.6 | **65.8** | 37.0 |
| BrowseComp (Swarm) | **78.4** | - | - |
| DeepSearchQA | **77.1** | 71.3 | 76.1 |
| Seal-0 | **57.4** | 45.0 | 47.7 |
总结
- 数学/推理:接近 GPT-5.2,明显优于 DeepSeek V3.2
- 视觉/OCR:多项第一(OCRBench 92.3, MathVista 90.1)
- 编码:接近但略低于 Claude Opus 4.5
- 搜索/Agent:Agent Swarm 模式碾压所有对手
- 性价比:$0.60/$2.50 per M tokens,远低于 GPT-5.2/Claude Opus
💰 定价对比
| 模型 | Input ($/M tokens) | Output ($/M tokens) |
|---|---|---|
| **Kimi K2.5** | **$0.60** | **$2.50** |
| GPT-5.2 | $10.00+ | $30.00+ |
| Claude Opus 4.5 | $15.00 | $75.00 |
| Gemini 3 Pro | $1.25 | $5.00 |
| DeepSeek V3.2 | $0.27 | $1.10 |
Kimi K2.5 在开源模型中价格合理,比闭源前沿模型便宜一个数量级以上。
🔍 冷静分析
真正的创新
1. Agent Swarm + PARL 训练:这是真正的技术突破——不是简单的多 Agent 框架,而是用 RL 训练模型学会何时/如何并行。解决串行坍缩的方法很聪明
2. 原生多模态 MoE:不是后装视觉,而是从一开始混合训练。MoonViT 400M 参数的视觉编码器跟 1T 主模型协同
3. INT4 QAT:量化感知训练(非后压缩),2x 推理加速且不损精度
值得注意的
- ⚠️ Agent Swarm 仍是 Beta——生产环境稳定性未验证
- ⚠️ 1T 参数自部署门槛高——即使只激活 32B,推理仍需大量 GPU
- ⚠️ Benchmark 自评注意事项——部分对手分数是自己测的(带 * 标记),不一定完全公平
- ⚠️ GPT-5.2 xhigh 有 ~10% 失败率——可能低估 GPT-5.2 真实性能
在中国 AI 生态中的位置
| 公司 | 模型 | 特色 |
|---|---|---|
| **月之暗面** | Kimi K2.5 | Agent Swarm,视觉编码 |
| DeepSeek | V3.2 | 最便宜,推理能力强 |
| 阿里 | Qwen3-VL | 多模态,MoE |
| 智谱 | GLM-5 | 中文优化 |
| MiniMax | M2.5 | 长上下文 |
月之暗面通过 Agent Swarm 找到了差异化定位——不跟 DeepSeek 拼价格,不跟 Qwen 拼多模态全面性,而是押注 "一个模型管理一群模型" 的范式。
💡 与我们的关联
1. Agent Swarm 对 OpenClaw 的启示
OpenClaw 目前的子 Agent 是手动创建的——用户或主 Agent 显式 spawn。Kimi K2.5 展示了模型自己决定何时/如何创建子 Agent 的可能性。如果 OpenClaw 能接入 Kimi K2.5 API,Swarm 模式可以直接用。
2. 我们已经在用 Kimi
我们的 OpenClaw 配置中有 kimi 频道(绑定 1472971535147860069)。K2.5 是显著升级——特别是 Agent 模式(200-300 次工具调用不漂移)和视觉编码能力。
3. 深度研究场景的直接竞争
我们目前用 Claude Opus 做深度研究。Kimi K2.5 的 Agent Swarm 在 BrowseComp/WideSearch 上超过了 Claude Opus 4.5——如果研究任务可以并行化(比如同时调查多个来源),Swarm 理论上更快更好。
4. 成本对比
| 方案 | 成本 |
|---|---|
| 当前(Claude Opus) | ~$15/$75 per M |
| Kimi K2.5 API | **$0.60/$2.50 per M** |
| 差距 | **25-30x 更便宜** |
如果质量达到要求,切换到 Kimi K2.5 做部分研究任务的 ROI 非常高。
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 技术创新 | 9.0 — Agent Swarm + PARL 是真正的突破 |
| 模型能力 | 8.5 — 接近但未全面超越 GPT-5.2/Claude |
| 开源程度 | 9.0 — 权重+代码+技术报告全开 |
| 实用价值 | 8.5 — API 可用,价格友好,四种模式覆盖广 |
| 与我们的关联 | 8.5 — 我们已在用 Kimi,Agent Swarm 直接可试 |
| **综合** | **8.8** |
报告由深度研究助手自动生成 | 2026-03-16
来源: https://www.kimi.com/ai-models/kimi-k2-5