NVIDIA Nemotron 3:为 Agent 而生的高效开放模型家族
> 来源: https://developer.nvidia.cn/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/
> 研究页面: https://research.nvidia.com/labs/nemotron/Nemotron-3/
> 团队: NVIDIA Nemotron 团队
> 许可: NVIDIA Open Model License(开放权重 + 训练方案 + 数据)
> 日期: 2026-03-12
📌 一句话总结
NVIDIA 发布 Nemotron 3 系列——专为 Agentic AI 设计的开放模型家族,采用 Mamba-Transformer 混合 MoE 架构,原生 100 万 token 上下文,通过多环境强化学习训练,并开放了权重、近 10 万亿 token 训练数据和完整训练方案。
🏗️ 模型家族
| 型号 | 总参数 | 激活参数 | 定位 | 状态 |
|---|---|---|---|---|
| **Nano** | 31.6B | 3.2B(3.6B 含 embedding) | 高吞吐、低成本 Agent | ✅ 已发布 |
| **Super** | — | — | 协作 Agent、高并发工作负载 | ✅ 刚发布(2026-03-11) |
| **Ultra** | — | — | SOTA 精度、深度推理 | 🔜 2026 上半年 |
🧬 核心架构:混合 Mamba-Transformer MoE
这是 Nemotron 3 最大的技术创新——把三种架构融合成一个主干:
┌──────────────────────────────────────┐
│ Nemotron 3 主干 │
│ │
│ ┌──────────┐ 交错部署 │
│ │ Mamba-2 │ → 高效序列建模 │
│ │ 层 │ 低显存追踪长程依赖 │
│ └──────────┘ │
│ ┌──────────┐ │
│ │ MoE 路由 │ → 每 token 只激活部分 │
│ │ 层 │ 专家,降低延迟 │
│ └──────────┘ │
│ ┌──────────┐ 少量 │
│ │ 自注意力 │ → 精细注意力 │
│ │ 层 │ 捕捉逻辑关联 │
│ └──────────┘ │
└──────────────────────────────────────┘
为什么这个组合重要?
| 组件 | 解决什么问题 | 对 Agent 的意义 |
|---|---|---|
| **Mamba** | 长序列高效处理,显存恒定 | Agent 可以在 100 万 token 内持续推理 |
| **Transformer** | 精确注意力,逻辑推理 | 代码、数学、规划等需要精确关联的任务 |
| **MoE** | 大参数小计算 | 同时运行大量轻量 Agent,降低单个成本 |
Super & Ultra 额外技术
| 技术 | 说明 |
|---|---|
| **Latent MoE** | 专家先在共享潜在空间运算再投影回 token 空间,同成本可调用 **4 倍专家** |
| **多 Token 预测(MTP)** | 一次前向传播预测多个 token,规划/代码生成大幅加速 |
| **NVFP4** | 4 位浮点训练 + 推理,业界领先的成本/精度比 |
📊 性能数据
Nano(已发布)
| 对比 | 结果 |
|---|---|
| vs GPT-OSS-20B | ✅ 精度更高 |
| vs Qwen3-30B-A3B-Thinking | ✅ 精度更高 |
| 推理吞吐(单 H200) | Qwen3-30B-A3B 的 **3.3 倍** |
| 推理吞吐(单 H200) | GPT-OSS-20B 的 **2.2 倍** |
| 长上下文(RULER) | 优于 GPT-OSS-20B 和 Qwen3-30B |
| 本地推理速度 | prompt 处理 842 tok/s(vs Qwen3 的 140 tok/s) |
Super(刚发布)
| 指标 | 数据 |
|---|---|
| 预训练数据 | **25 万亿 token** |
| 上下文长度 | **100 万 token** |
| vs 上一代 Nemotron Super | 吞吐量 **5 倍以上** |
| SPEED-Bench | 平均接受长度 3.45 token/步(vs DeepSeek-R1 的 2.70) |
| 推测解码 | 最高 **3 倍实际加速**,无需额外 draft 模型 |
🔓 开放程度(极高)
NVIDIA 这次开放力度非常大:
| 开放项 | 状态 |
|---|---|
| 模型权重 | ✅ BF16 + FP8 |
| 预训练 Base 模型 | ✅ |
| 预训练数据(近 10T token) | ✅ 可查阅/重用 |
| SFT 数据(1300 万样本) | ✅ |
| RL 数据集 + 环境 | ✅ |
| Agent 安全数据集(1.1 万轨迹) | ✅ |
| 训练方案(预训练 + RL) | ✅ GitHub |
| GenRM 模型 | ✅ Qwen-3-Nemotron-235B |
| NeMo Gym(RL 环境库) | ✅ 开源 |
这几乎是完整的复现材料——从数据到训练到部署全链路开放。
🤖 多环境 RL:真正的 Agent 训练
传统 RL 只在单一环境优化。Nemotron 3 在 NeMo Gym 中跨多种环境训练:
- 工具调用环境:生成正确的 function call
- 代码执行环境:编写功能性代码
- 多步规划环境:满足可验证标准的计划
基于轨迹的 RL——不只优化单次回复,而是优化连续动作序列。这让模型在多步工作流中更稳定,减少推理漂移。
📏 100 万 Token 上下文
得益于 Mamba 的恒定显存特性:
- 在超大规模序列上保持稳定性能
- Agent 可以在单个上下文中保留完整证据集、历史记录、多阶段计划
- 不需要 RAG 分块——直接把整个代码库/文档集塞进去
vs 传统 Transformer:Transformer 的注意力计算是 O(n²),100 万 token 的成本极高。Mamba 是 O(n),显存几乎恒定。
💡 分析
为什么重要
1. Agent 专用模型:不是"通用大模型顺便做 Agent"——架构(Mamba 长序列 + MoE 低成本)和训练(多环境 RL + 轨迹优化)都围绕 Agent 场景设计
2. 开放程度惊人:10 万亿 token 数据 + 训练方案 + RL 环境全开放——这在大厂模型中几乎前所未有
3. Mamba 验证:Nemotron 3 是 Mamba 架构在大规模生产模型中的首次成功应用之一,证明混合架构可行
4. 推理时预算控制:"Granular Reasoning Budget Control at Inference Time"——可以在推理时控制模型花多少"思考预算"
局限
1. NVIDIA 生态绑定:虽然权重开放,但最佳性能需要 NVIDIA GPU(H200/Blackwell)
2. 许可不是 Apache:NVIDIA Open Model License 不如 Apache-2.0 宽松
3. 本地部署门槛:Nano 30B 可以本地跑,但 Super/Ultra 需要高端 GPU
4. 实际 Agent 表现待验证:benchmark 好不等于实际 Agent 工作流好
与我们的关联
1. Nano 可考虑用于轻量 Agent:31.6B 参数但只激活 3.2B,本地部署效率极高。我们的某些简单任务(分类、摘要)可以用 Nano 替代 API 调用
2. 100 万上下文:如果用于深度研究 Agent,可以一次性塞入多篇论文而不用分块
3. RL 训练方案:如果未来想微调自己的 Agent 模型,NeMo Gym 的多环境 RL 方案是现成的参考
4. Mamba 架构趋势:混合 Mamba-Transformer 可能成为 Agent 模型的标准架构
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 创新性 | 9.0 — Mamba-Transformer-MoE 三合一 + 多环境 RL |
| 技术深度 | 9.5 — 架构设计 + 训练方案 + 数据管线全公开 |
| 实用价值 | 8.5 — Nano 即可用,Super 刚发布 |
| 开放程度 | 9.0 — 权重/数据/方案/环境近乎全开放 |
| 与我们的关联 | 7.0 — 需要 NVIDIA GPU,但 Nano 本地可跑 |
| **综合** | **8.6** |
报告由深度研究助手自动生成 | 2026-03-12
来源: https://developer.nvidia.cn/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/