NVIDIA Nemotron 3：为 Agent 而生的高效开放模型家族

🎯 一句话版本

关于NVIDIA Nemotron 3：为 Agent 而生的高效开放模型家族的深度研究报告

> 来源: https://developer.nvidia.cn/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/

> 研究页面: https://research.nvidia.com/labs/nemotron/Nemotron-3/

> 团队: NVIDIA Nemotron 团队

> 许可: NVIDIA Open Model License（开放权重 + 训练方案 + 数据）

> 日期: 2026-03-12

📌 一句话总结

NVIDIA 发布 Nemotron 3 系列——专为 Agentic AI 设计的开放模型家族，采用 Mamba-Transformer 混合 MoE 架构，原生 100 万 token 上下文，通过多环境强化学习训练，并开放了权重、近 10 万亿 token 训练数据和完整训练方案。

🏗️ 模型家族

型号	总参数	激活参数	定位	状态
Nano	31.6B	3.2B（3.6B 含 embedding）	高吞吐、低成本 Agent	✅ 已发布
Super	—	—	协作 Agent、高并发工作负载	✅ 刚发布（2026-03-11）
Ultra	—	—	SOTA 精度、深度推理	🔜 2026 上半年

🧬 核心架构：混合 Mamba-Transformer MoE

这是 Nemotron 3 最大的技术创新——把三种架构融合成一个主干：


┌──────────────────────────────────────┐
│          Nemotron 3 主干              │
│                                      │
│  ┌──────────┐  交错部署               │
│  │ Mamba-2  │ → 高效序列建模          │
│  │   层     │   低显存追踪长程依赖     │
│  └──────────┘                        │
│  ┌──────────┐                        │
│  │ MoE 路由 │ → 每 token 只激活部分    │
│  │   层     │   专家，降低延迟        │
│  └──────────┘                        │
│  ┌──────────┐  少量                   │
│  │ 自注意力 │ → 精细注意力            │
│  │   层     │   捕捉逻辑关联          │
│  └──────────┘                        │
└──────────────────────────────────────┘

为什么这个组合重要？

组件	解决什么问题	对 Agent 的意义
Mamba	长序列高效处理，显存恒定	Agent 可以在 100 万 token 内持续推理
Transformer	精确注意力，逻辑推理	代码、数学、规划等需要精确关联的任务
MoE	大参数小计算	同时运行大量轻量 Agent，降低单个成本

Super & Ultra 额外技术

技术	说明
Latent MoE	专家先在共享潜在空间运算再投影回 token 空间，同成本可调用 4 倍专家
多 Token 预测（MTP）	一次前向传播预测多个 token，规划/代码生成大幅加速
NVFP4	4 位浮点训练 + 推理，业界领先的成本/精度比

📊 性能数据

Nano（已发布）

对比	结果
vs GPT-OSS-20B	✅ 精度更高
vs Qwen3-30B-A3B-Thinking	✅ 精度更高
推理吞吐（单 H200）	Qwen3-30B-A3B 的 3.3 倍
推理吞吐（单 H200）	GPT-OSS-20B 的 2.2 倍
长上下文（RULER）	优于 GPT-OSS-20B 和 Qwen3-30B
本地推理速度	prompt 处理 842 tok/s（vs Qwen3 的 140 tok/s）

Super（刚发布）

指标	数据
预训练数据	25 万亿 token
上下文长度	100 万 token
vs 上一代 Nemotron Super	吞吐量 5 倍以上
SPEED-Bench	平均接受长度 3.45 token/步（vs DeepSeek-R1 的 2.70）
推测解码	最高 3 倍实际加速，无需额外 draft 模型

🔓 开放程度（极高）

NVIDIA 这次开放力度非常大：

开放项	状态
模型权重	✅ BF16 + FP8
预训练 Base 模型	✅
预训练数据（近 10T token）	✅ 可查阅/重用
SFT 数据（1300 万样本）	✅
RL 数据集 + 环境	✅
Agent 安全数据集（1.1 万轨迹）	✅
训练方案（预训练 + RL）	✅ GitHub
GenRM 模型	✅ Qwen-3-Nemotron-235B
NeMo Gym（RL 环境库）	✅ 开源

这几乎是完整的复现材料——从数据到训练到部署全链路开放。

🤖 多环境 RL：真正的 Agent 训练

传统 RL 只在单一环境优化。Nemotron 3 在 NeMo Gym 中跨多种环境训练：

工具调用环境：生成正确的 function call
代码执行环境：编写功能性代码
多步规划环境：满足可验证标准的计划

基于轨迹的 RL——不只优化单次回复，而是优化连续动作序列。这让模型在多步工作流中更稳定，减少推理漂移。

📏 100 万 Token 上下文

得益于 Mamba 的恒定显存特性：

在超大规模序列上保持稳定性能
Agent 可以在单个上下文中保留完整证据集、历史记录、多阶段计划
不需要 RAG 分块——直接把整个代码库/文档集塞进去

vs 传统 Transformer：Transformer 的注意力计算是 O(n²)，100 万 token 的成本极高。Mamba 是 O(n)，显存几乎恒定。

💡 分析

为什么重要

1. Agent 专用模型：不是"通用大模型顺便做 Agent"——架构（Mamba 长序列 + MoE 低成本）和训练（多环境 RL + 轨迹优化）都围绕 Agent 场景设计

2. 开放程度惊人：10 万亿 token 数据 + 训练方案 + RL 环境全开放——这在大厂模型中几乎前所未有

3. Mamba 验证：Nemotron 3 是 Mamba 架构在大规模生产模型中的首次成功应用之一，证明混合架构可行

4. 推理时预算控制："Granular Reasoning Budget Control at Inference Time"——可以在推理时控制模型花多少"思考预算"

局限

1. NVIDIA 生态绑定：虽然权重开放，但最佳性能需要 NVIDIA GPU（H200/Blackwell）

2. 许可不是 Apache：NVIDIA Open Model License 不如 Apache-2.0 宽松

3. 本地部署门槛：Nano 30B 可以本地跑，但 Super/Ultra 需要高端 GPU

4. 实际 Agent 表现待验证：benchmark 好不等于实际 Agent 工作流好

与我们的关联

1. Nano 可考虑用于轻量 Agent：31.6B 参数但只激活 3.2B，本地部署效率极高。我们的某些简单任务（分类、摘要）可以用 Nano 替代 API 调用

2. 100 万上下文：如果用于深度研究 Agent，可以一次性塞入多篇论文而不用分块

3. RL 训练方案：如果未来想微调自己的 Agent 模型，NeMo Gym 的多环境 RL 方案是现成的参考

4. Mamba 架构趋势：混合 Mamba-Transformer 可能成为 Agent 模型的标准架构

📊 评分

维度	评分（/10）
创新性	9.0 — Mamba-Transformer-MoE 三合一 + 多环境 RL
技术深度	9.5 — 架构设计 + 训练方案 + 数据管线全公开
实用价值	8.5 — Nano 即可用，Super 刚发布
开放程度	9.0 — 权重/数据/方案/环境近乎全开放
与我们的关联	7.0 — 需要 NVIDIA GPU，但 Nano 本地可跑
综合	8.6

报告由深度研究助手自动生成 | 2026-03-12

来源: https://developer.nvidia.cn/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）