MiMo-V2-Omni — 小米的全模态 Agent 基座模型
> 一句话版本:小米推出的"全感官 AI",能同时看图、听音、读文字,不只是理解当前发生了什么,还能预测接下来会发生什么、应该怎么做。定价极低(输入 $0.40/百万 token),多个 benchmark 超越 GPT-5.2 和 Gemini 3 Pro。
| 项目 | 信息 |
|---|---|
| 来源 | https://mimo.xiaomi.com/mimo-v2-omni |
| 团队 | 小米 |
| 发布时间 | 2026-03-18 |
| 上下文 | 256K tokens |
| API 价格 | 输入 $0.40 / 百万 token,输出 $2.00 / 百万 token |
| API 兼容 | OpenAI 格式,兼容 Claude Code / Cline / Roo Code / OpenRouter 等 |
核心内容
MiMo-V2-Omni 是小米 MiMo-V2 模型家族中的全模态成员。它的核心设计理念:感知和行动不是分开的两个阶段,而是一个连续的推理过程。
架构:统一感知流
图片编码器 ─┐
视频编码器 ─┼→ 共享骨干网络(Single Shared Backbone)→ 工具调用 / UI 锚定 / 结构化输出
音频编码器 ─┘
关键区别:不是把图片、音频、文字三种能力"拼"在一起,而是从一开始就融合成一个统一的感知流。模型同时看、听、读,像一个在真实世界操作的 Agent 一样。
训练思路:预测未来,而非描述现在
大多数多模态模型被训练来"描述当前场景"。MiMo-V2-Omni 被训练来回答三个问题:
1. 场景里有什么?
2. 接下来会发生什么?
3. 现在该做什么?
从第一步训练开始,感知和行动就是一体的。
Benchmark 表现
| 模态 | Benchmark | 对比结果 |
|---|---|---|
| 音频 | MMAU-Pro, BigBench-Audio | **超越 Gemini 3 Pro** |
| 图像 | MMMU-Pro, CharXiv RQ | **超越 Claude Opus 4.6,接近 Gemini 3** |
| 视频 | VideoMME, FutureOmni | 原生音视频联合输入 |
| Web/UI | 多项核心指标 | **超越 Gemini 3 Pro 和 GPT-5.2** |
核心能力
音频理解(超越同行)
- 超过 10 小时连续音频理解(大多数模型做不到)
- 环境音分类(不只是语音转录)
- 多说话人分离
- 音视频联合推理
- 7 小时播客单次通过摘要(不切块、不中间总结)
视频理解 + 情境预测
- 原生音视频联合输入
- 不仅能看懂"发生了什么",还能预测"接下来会怎样"
- 自动驾驶风险实时评估(行车记录仪直接输入,输出时间轴风险标注)
跨模态深度理解
- 能理解声音和画面的语义关联(不是机械标注)
- 示例:分析电影片段时,能理解"女儿把母亲切菜声想象成熊猫吃竹子"背后的蒙太奇结构和隐喻
Agent 原生能力
- 结构化工具调用
- 函数执行
- UI 锚定(可直接操作浏览器界面)
- 浏览器原生自动化(购物比价、社交媒体发布、结账等)
实际演示案例
1. 自动驾驶风险分析
输入一段行车记录仪视频(沿海小镇驾驶),模型输出逐秒风险标注:
- 00:02 环岛让行风险:深绿色轿车从左侧进入
- 00:22 关键交叉路口:银色 SUV 左侧汇入,能见度差
- 02:59 乱穿马路:粉色上衣行人逆行穿越
- 每个风险点包含具体的时间戳、风险等级和建议动作
2. 电影跨模态分析
输入电影《The Good Thing》片段,模型用中文输出完整的:
- 蒙太奇结构分析(听觉-视觉对应关系)
- 关键场景意象解码("熊猫吃竹子"= 母亲折芹菜,"泥石流"= 橘子滚落楼梯)
- 视觉风格与光影分析
- 角色动态与主题总结
3. 长音频摘要
输入一整期 7 小时播客(无切片),单次通过输出结构化摘要,捕捉的不是孤立话题而是贯穿数小时的论证逻辑链。
MiMo-V2 全家桶
| 模型 | 定位 | 参数 | 上下文 | 价格 |
|---|---|---|---|---|
| **MiMo-V2-Pro** | 旗舰推理 | >1T/42B (MoE) | 1M tokens | $1.00-$2.00 输入 |
| **MiMo-V2-Omni** | 全模态 | 未公开 | 256K tokens | **$0.40 / $2.00** |
| **MiMo-V2-Flash** | 极致效率 | 309B/15B (MoE) | 256K tokens | **$0.10 / $0.30** |
| **MiMo-V2-TTS** | 语音合成 | 未公开 | 8K tokens | **免费** |
价格对比
| 模型 | 输入 / 百万 token | 输出 / 百万 token |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| Claude Opus 4 | $15.00 | $75.00 |
| Gemini 3 Pro | ~$1.25 | ~$10.00 |
| **MiMo-V2-Omni** | **$0.40** | **$2.00** |
| **MiMo-V2-Flash** | **$0.10** | **$0.30** |
MiMo-V2-Omni 的价格是 GPT-4o 的 1/5 到 1/6,MiMo-V2-Flash 更是 1/25。
分析
优势:
- 价格杀手:$0.40 输入价格在同类模型中最低之一
- 真正的全模态融合:不是 bolt-on,是架构级统一
- 长音频理解:10+ 小时连续音频,绝大多数模型做不到
- Agent 原生:工具调用、UI 锚定、浏览器自动化开箱即用
- OpenAI 兼容 API:迁移成本几乎为零
- 实测好评:Reddit 用户反馈"最接近 GPT-4o 和 5.1 的体验"
风险:
- 参数量未公开,透明度不足
- 闭源,无法本地部署
- 中国公司,数据隐私和合规需关注
- 3 周前刚发布,生产稳定性有待验证
- 音频理解虽然强,但语音合成(TTS)是独立模型,不是同一个
- 与 GPT-5.2 / Gemini 3 的对比来自官方,独立验证有限
与 Jay 的关联:
- 价格优势直接可用:$0.40/百万 token,OpenClaw 可以接入作为低成本多模态模型
- 10 小时音频理解对播客摘要场景有价值(Jay 有 podcast 项目)
- 浏览器自动化能力可与小虾 Agent 架构互补
- Flash 版本 $0.10 输入:适合高频低延迟场景(如飞书/Discord bot)
- MiMo-V2-Pro 的 1M context 对深度研究场景有吸引力
评分
| 维度 | 评分 (1-10) | 说明 |
|---|---|---|
| 创新性 | 8 | 统一感知流 + 预测未来训练,架构有新意 |
| 实用性 | 9 | 价格极低、API 兼容、Agent 原生 |
| 性能 | 8 | 多项 benchmark 超越 GPT-5.2/Gemini 3 Pro,但需独立验证 |
| 文档 | 7 | 官网详细,但技术论文/开源代码缺失 |
| 生态 | 7 | OpenAI 兼容,多工具支持,但非开源 |
| 可靠性 | 6 | 刚发布 3 周,闭源,生产验证不足 |
| **总分** | **7.5** | 价格屠夫级全模态模型,Agent 时代的强力基座 |