Kimi K2.5 深度研究：月之暗面的万亿参数开源模型，100 个 AI 同时干活的 Agent Swarm 是什么？

🎯 一句话版本

关于Kimi K2.5 深度研究：月之暗面的万亿参数开源模型，100 个 AI 同时干活的 Agent Swarm 是什么？的深度研究报告

> 来源: https://www.kimi.com/ai-models/kimi-k2-5

> GitHub: https://github.com/MoonshotAI/Kimi-K2.5

> 技术报告: https://github.com/MoonshotAI/Kimi-K2.5/blob/master/tech_report.pdf

> PARL 论文: https://arxiv.org/abs/2602.02276

> 发布日期: 2026-01-27

> 公司: Moonshot AI（月之暗面）

> 研究时间: 2026-03-16

📌 一句话总结

Kimi K2.5 是月之暗面在 2026 年 1 月发布的开源万亿参数 MoE 多模态模型，每次请求只激活 32B 参数。最大卖点是 Agent Swarm——可以同时协调最多 100 个子 Agent 并行工作，将 BrowseComp 成绩从 60.6% 提升到 78.4%（超过 GPT-5.2），执行速度提升 4.5 倍。

🏗️ 架构一览

参数	数值
架构	Mixture-of-Experts (MoE)
总参数	1T（万亿）
激活参数	32B（每个 token 只用 3.2%）
层数	61
专家数	384 + 1 个共享专家
每 token 选择	8 个专家
注意力机制	MLA（Multi-Head Latent Attention）
注意力头	64
隐藏维度	7168
上下文长度	256K tokens
词表	160K
视觉编码器	MoonViT（400M 参数）
激活函数	SwiGLU
训练数据	在 K2 Base 上继续预训练 ~15T 混合视觉+文本 tokens
量化	INT4 QAT（量化感知训练，非后处理压缩）
开源	✅ 权重在 HuggingFace，代码在 GitHub
许可	开源（GitHub LICENSE）

与同类对比

模型	总参数	激活参数	上下文	开源
Kimi K2.5	1T	32B	256K	✅
DeepSeek V3.2	671B	37B	128K	✅
Qwen3-VL-235B	235B	22B	128K	✅
GPT-5.2	未公开	未公开	128K+	❌
Claude Opus 4.5	未公开	未公开	200K	❌
Gemini 3 Pro	未公开	未公开	2M	❌

🧠 四种运行模式

1. Instant（即时）

3-8 秒响应，跳过推理过程
temperature=0.6, top_p=0.95
比 Thinking 模式省 60-75% token
适合：快速问答、简单代码

2. Thinking（深度思考）

显示推理过程（reasoning_content 字段）
temperature=1.0, top_p=0.95
最大 96K token 思考预算
适合：数学竞赛、复杂推理

3. Agent（智能体）

集成搜索、代码解释器、网页浏览
200-300 次连续工具调用不漂移——这是很多模型的痛点
适合：深度研究、文档生成、网页综合

4. Agent Swarm（智能体群）🔥

同时协调最多 100 个并行子 Agent
每个子 Agent 独立使用工具，最多 100 步
主 Agent（编排器）最多 15 步
适合：大规模并行研究、批量处理

🐝 Agent Swarm：核心技术深度

为什么需要 Swarm？

传统 Agent 是串行的——研究 100 个主题，每个 50 秒，总共 5000 秒。Agent Swarm 并行执行，约 50 秒 + 协调开销。

技术实现


用户请求: "研究 100 个 YouTube 领域的顶级创作者"
    ↓
编排器（主 Agent）分析任务
    ↓ 识别可并行的子任务
动态创建 100 个领域特定子 Agent
    ↓ 每个 Agent 独立搜索+分析
    ↓ 并行执行
编排器综合结果
    ↓
输出最终报告

训练方法：PARL（Parallel Agent Reinforcement Learning）

这是最有技术含量的部分。训练一个能并行编排的模型面临三大挑战：

挑战	解决方案
串行坍缩 — 编排器退化为只用一个 Agent	早期奖励鼓励并行（子 Agent 创建+并发执行）
信用分配模糊 — 50 个 Agent 同时跑，谁该得奖？	子 Agent 冻结，只训练编排器
训练不稳定	分阶段：先奖励并行 → 后奖励质量

最终奖励函数：80% 完成质量 + 20% 关键路径效率。

Benchmark 结果

任务	单 Agent	Agent Swarm	提升
BrowseComp	60.6%	78.4%	+29%
WideSearch	72.7%	79.0%	+9%

BrowseComp 78.4% 超过了 GPT-5.2 的 65.8%。

Andrew Ng 评价：

> "Kimi K2.5 shifts task execution from chain-of-thought reasoning to agentic teamwork."

📊 全面 Benchmark 对比

推理与知识

Benchmark	Kimi K2.5	GPT-5.2	Claude 4.5 Opus	Gemini 3 Pro	DeepSeek V3.2
HLE (w/tools)	50.2	45.5	43.2	45.8	40.8
AIME 2025	96.1	100	92.8	95.0	93.1
GPQA-Diamond	87.6	92.4	87.0	91.9	82.4
MMLU-Pro	87.1	86.7	89.3	90.1	85.0

视觉

Benchmark	Kimi K2.5	GPT-5.2	Claude 4.5 Opus	Gemini 3 Pro
MMMU-Pro	78.5	79.5	74.0	81.0
MathVista	90.1	82.8	80.2	89.8
OCRBench	92.3	80.7	86.5	90.3
VideoMMMU	86.6	85.9	84.4	87.6

编码

Benchmark	Kimi K2.5	GPT-5.2	Claude 4.5 Opus	Gemini 3 Pro	DeepSeek V3.2
SWE-Bench Verified	76.8	80.0	80.9	76.2	73.1
SWE-Bench Multilingual	73.0	72.0	77.5	65.0	70.2
LiveCodeBench v6	85.0	-	82.2	87.4	83.3

搜索/Agent

Benchmark	Kimi K2.5	GPT-5.2	Claude 4.5 Opus
BrowseComp	60.6	65.8	37.0
BrowseComp (Swarm)	78.4	-	-
DeepSearchQA	77.1	71.3	76.1
Seal-0	57.4	45.0	47.7

总结

数学/推理：接近 GPT-5.2，明显优于 DeepSeek V3.2
视觉/OCR：多项第一（OCRBench 92.3, MathVista 90.1）
编码：接近但略低于 Claude Opus 4.5
搜索/Agent：Agent Swarm 模式碾压所有对手
性价比：$0.60/$2.50 per M tokens，远低于 GPT-5.2/Claude Opus

💰 定价对比

模型	Input ($/M tokens)	Output ($/M tokens)
Kimi K2.5	$0.60	$2.50
GPT-5.2	$10.00+	$30.00+
Claude Opus 4.5	$15.00	$75.00
Gemini 3 Pro	$1.25	$5.00
DeepSeek V3.2	$0.27	$1.10

Kimi K2.5 在开源模型中价格合理，比闭源前沿模型便宜一个数量级以上。

🔍 冷静分析

真正的创新

1. Agent Swarm + PARL 训练：这是真正的技术突破——不是简单的多 Agent 框架，而是用 RL 训练模型学会何时/如何并行。解决串行坍缩的方法很聪明

2. 原生多模态 MoE：不是后装视觉，而是从一开始混合训练。MoonViT 400M 参数的视觉编码器跟 1T 主模型协同

3. INT4 QAT：量化感知训练（非后压缩），2x 推理加速且不损精度

值得注意的

⚠️ Agent Swarm 仍是 Beta——生产环境稳定性未验证
⚠️ 1T 参数自部署门槛高——即使只激活 32B，推理仍需大量 GPU
⚠️ Benchmark 自评注意事项——部分对手分数是自己测的（带 * 标记），不一定完全公平
⚠️ GPT-5.2 xhigh 有 ~10% 失败率——可能低估 GPT-5.2 真实性能

在中国 AI 生态中的位置

公司	模型	特色
月之暗面	Kimi K2.5	Agent Swarm，视觉编码
DeepSeek	V3.2	最便宜，推理能力强
阿里	Qwen3-VL	多模态，MoE
智谱	GLM-5	中文优化
MiniMax	M2.5	长上下文

月之暗面通过 Agent Swarm 找到了差异化定位——不跟 DeepSeek 拼价格，不跟 Qwen 拼多模态全面性，而是押注 "一个模型管理一群模型" 的范式。

💡 与我们的关联

1. Agent Swarm 对 OpenClaw 的启示

OpenClaw 目前的子 Agent 是手动创建的——用户或主 Agent 显式 spawn。Kimi K2.5 展示了模型自己决定何时/如何创建子 Agent 的可能性。如果 OpenClaw 能接入 Kimi K2.5 API，Swarm 模式可以直接用。

2. 我们已经在用 Kimi

我们的 OpenClaw 配置中有 kimi 频道（绑定 1472971535147860069）。K2.5 是显著升级——特别是 Agent 模式（200-300 次工具调用不漂移）和视觉编码能力。

3. 深度研究场景的直接竞争

我们目前用 Claude Opus 做深度研究。Kimi K2.5 的 Agent Swarm 在 BrowseComp/WideSearch 上超过了 Claude Opus 4.5——如果研究任务可以并行化（比如同时调查多个来源），Swarm 理论上更快更好。

4. 成本对比

方案	成本
当前（Claude Opus）	~$15/$75 per M
Kimi K2.5 API	$0.60/$2.50 per M
差距	25-30x 更便宜

如果质量达到要求，切换到 Kimi K2.5 做部分研究任务的 ROI 非常高。

📊 评分

维度	评分（/10）
技术创新	9.0 — Agent Swarm + PARL 是真正的突破
模型能力	8.5 — 接近但未全面超越 GPT-5.2/Claude
开源程度	9.0 — 权重+代码+技术报告全开
实用价值	8.5 — API 可用，价格友好，四种模式覆盖广
与我们的关联	8.5 — 我们已在用 Kimi，Agent Swarm 直接可试
综合	8.8

报告由深度研究助手自动生成 | 2026-03-16

来源: https://www.kimi.com/ai-models/kimi-k2-5

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

参数	数值
架构	Mixture-of-Experts (MoE)
总参数	1T（万亿）
激活参数	32B（每个 token 只用 3.2%）
层数	61
专家数	384 + 1 个共享专家
每 token 选择	8 个专家
注意力机制	MLA（Multi-Head Latent Attention）
注意力头	64
隐藏维度	7168
上下文长度	256K tokens
词表	160K
视觉编码器	MoonViT（400M 参数）
激活函数	SwiGLU
训练数据	在 K2 Base 上继续预训练 ~15T 混合视觉+文本 tokens
量化	INT4 QAT（量化感知训练，非后处理压缩）
开源	✅ 权重在 HuggingFace，代码在 GitHub
许可	开源（GitHub LICENSE）