Kimi K2.5 深度研究:月之暗面的万亿参数开源模型,100 个 AI 同时干活的 Agent Swarm 是什么?

> 来源: https://www.kimi.com/ai-models/kimi-k2-5

> GitHub: https://github.com/MoonshotAI/Kimi-K2.5

> 技术报告: https://github.com/MoonshotAI/Kimi-K2.5/blob/master/tech_report.pdf

> PARL 论文: https://arxiv.org/abs/2602.02276

> 发布日期: 2026-01-27

> 公司: Moonshot AI(月之暗面)

> 研究时间: 2026-03-16

📌 一句话总结

Kimi K2.5 是月之暗面在 2026 年 1 月发布的开源万亿参数 MoE 多模态模型,每次请求只激活 32B 参数。最大卖点是 Agent Swarm——可以同时协调最多 100 个子 Agent 并行工作,将 BrowseComp 成绩从 60.6% 提升到 78.4%(超过 GPT-5.2),执行速度提升 4.5 倍。

🏗️ 架构一览

参数数值
**架构**Mixture-of-Experts (MoE)
**总参数****1T(万亿)**
**激活参数**32B(每个 token 只用 3.2%)
**层数**61
**专家数**384 + 1 个共享专家
**每 token 选择**8 个专家
**注意力机制**MLA(Multi-Head Latent Attention)
**注意力头**64
**隐藏维度**7168
**上下文长度****256K tokens**
**词表**160K
**视觉编码器**MoonViT(400M 参数)
**激活函数**SwiGLU
**训练数据**在 K2 Base 上继续预训练 ~15T 混合视觉+文本 tokens
**量化**INT4 QAT(量化感知训练,非后处理压缩)
**开源**✅ 权重在 HuggingFace,代码在 GitHub
**许可**开源(GitHub LICENSE)

与同类对比

模型总参数激活参数上下文开源
**Kimi K2.5**1T32B256K
DeepSeek V3.2671B37B128K
Qwen3-VL-235B235B22B128K
GPT-5.2未公开未公开128K+
Claude Opus 4.5未公开未公开200K
Gemini 3 Pro未公开未公开2M

🧠 四种运行模式

1. Instant(即时)

2. Thinking(深度思考)

3. Agent(智能体)

4. Agent Swarm(智能体群)🔥

🐝 Agent Swarm:核心技术深度

为什么需要 Swarm?

传统 Agent 是串行的——研究 100 个主题,每个 50 秒,总共 5000 秒。Agent Swarm 并行执行,约 50 秒 + 协调开销。

技术实现


用户请求: "研究 100 个 YouTube 领域的顶级创作者"
    ↓
编排器(主 Agent)分析任务
    ↓ 识别可并行的子任务
动态创建 100 个领域特定子 Agent
    ↓ 每个 Agent 独立搜索+分析
    ↓ 并行执行
编排器综合结果
    ↓
输出最终报告

训练方法:PARL(Parallel Agent Reinforcement Learning)

这是最有技术含量的部分。训练一个能并行编排的模型面临三大挑战:

挑战解决方案
**串行坍缩** — 编排器退化为只用一个 Agent早期奖励鼓励并行(子 Agent 创建+并发执行)
**信用分配模糊** — 50 个 Agent 同时跑,谁该得奖?子 Agent 冻结,只训练编排器
**训练不稳定**分阶段:先奖励并行 → 后奖励质量

最终奖励函数:80% 完成质量 + 20% 关键路径效率

Benchmark 结果

任务单 AgentAgent Swarm提升
**BrowseComp**60.6%**78.4%**+29%
**WideSearch**72.7%**79.0%**+9%

BrowseComp 78.4% 超过了 GPT-5.2 的 65.8%

Andrew Ng 评价:

> "Kimi K2.5 shifts task execution from chain-of-thought reasoning to agentic teamwork."

📊 全面 Benchmark 对比

推理与知识

BenchmarkKimi K2.5GPT-5.2Claude 4.5 OpusGemini 3 ProDeepSeek V3.2
HLE (w/tools)**50.2**45.543.245.840.8
AIME 202596.1**100**92.895.093.1
GPQA-Diamond87.6**92.4**87.091.982.4
MMLU-Pro87.186.789.3**90.1**85.0

视觉

BenchmarkKimi K2.5GPT-5.2Claude 4.5 OpusGemini 3 Pro
MMMU-Pro78.579.574.0**81.0**
MathVista**90.1**82.880.289.8
OCRBench**92.3**80.786.590.3
VideoMMMU86.685.984.4**87.6**

编码

BenchmarkKimi K2.5GPT-5.2Claude 4.5 OpusGemini 3 ProDeepSeek V3.2
SWE-Bench Verified76.880.0**80.9**76.273.1
SWE-Bench Multilingual73.072.0**77.5**65.070.2
LiveCodeBench v685.0-82.2**87.4**83.3

搜索/Agent

BenchmarkKimi K2.5GPT-5.2Claude 4.5 Opus
BrowseComp60.6**65.8**37.0
BrowseComp (Swarm)**78.4**--
DeepSearchQA**77.1**71.376.1
Seal-0**57.4**45.047.7

总结

💰 定价对比

模型Input ($/M tokens)Output ($/M tokens)
**Kimi K2.5****$0.60****$2.50**
GPT-5.2$10.00+$30.00+
Claude Opus 4.5$15.00$75.00
Gemini 3 Pro$1.25$5.00
DeepSeek V3.2$0.27$1.10

Kimi K2.5 在开源模型中价格合理,比闭源前沿模型便宜一个数量级以上。

🔍 冷静分析

真正的创新

1. Agent Swarm + PARL 训练:这是真正的技术突破——不是简单的多 Agent 框架,而是用 RL 训练模型学会何时/如何并行。解决串行坍缩的方法很聪明

2. 原生多模态 MoE:不是后装视觉,而是从一开始混合训练。MoonViT 400M 参数的视觉编码器跟 1T 主模型协同

3. INT4 QAT:量化感知训练(非后压缩),2x 推理加速且不损精度

值得注意的

在中国 AI 生态中的位置

公司模型特色
**月之暗面**Kimi K2.5Agent Swarm,视觉编码
DeepSeekV3.2最便宜,推理能力强
阿里Qwen3-VL多模态,MoE
智谱GLM-5中文优化
MiniMaxM2.5长上下文

月之暗面通过 Agent Swarm 找到了差异化定位——不跟 DeepSeek 拼价格,不跟 Qwen 拼多模态全面性,而是押注 "一个模型管理一群模型" 的范式。

💡 与我们的关联

1. Agent Swarm 对 OpenClaw 的启示

OpenClaw 目前的子 Agent 是手动创建的——用户或主 Agent 显式 spawn。Kimi K2.5 展示了模型自己决定何时/如何创建子 Agent 的可能性。如果 OpenClaw 能接入 Kimi K2.5 API,Swarm 模式可以直接用。

2. 我们已经在用 Kimi

我们的 OpenClaw 配置中有 kimi 频道(绑定 1472971535147860069)。K2.5 是显著升级——特别是 Agent 模式(200-300 次工具调用不漂移)和视觉编码能力。

3. 深度研究场景的直接竞争

我们目前用 Claude Opus 做深度研究。Kimi K2.5 的 Agent Swarm 在 BrowseComp/WideSearch 上超过了 Claude Opus 4.5——如果研究任务可以并行化(比如同时调查多个来源),Swarm 理论上更快更好。

4. 成本对比

方案成本
当前(Claude Opus)~$15/$75 per M
Kimi K2.5 API**$0.60/$2.50 per M**
差距**25-30x 更便宜**

如果质量达到要求,切换到 Kimi K2.5 做部分研究任务的 ROI 非常高。

📊 评分

维度评分(/10)
技术创新9.0 — Agent Swarm + PARL 是真正的突破
模型能力8.5 — 接近但未全面超越 GPT-5.2/Claude
开源程度9.0 — 权重+代码+技术报告全开
实用价值8.5 — API 可用,价格友好,四种模式覆盖广
与我们的关联8.5 — 我们已在用 Kimi,Agent Swarm 直接可试
**综合****8.8**

报告由深度研究助手自动生成 | 2026-03-16

来源: https://www.kimi.com/ai-models/kimi-k2-5