MiMo-V2-Omni — 小米的全模态 Agent 基座模型

> 一句话版本：小米推出的"全感官 AI"，能同时看图、听音、读文字，不只是理解当前发生了什么，还能预测接下来会发生什么、应该怎么做。定价极低（输入 $0.40/百万 token），多个 benchmark 超越 GPT-5.2 和 Gemini 3 Pro。

项目	信息
来源	https://mimo.xiaomi.com/mimo-v2-omni
团队	小米
发布时间	2026-03-18
上下文	256K tokens
API 价格	输入 $0.40 / 百万 token，输出 $2.00 / 百万 token
API 兼容	OpenAI 格式，兼容 Claude Code / Cline / Roo Code / OpenRouter 等

核心内容

MiMo-V2-Omni 是小米 MiMo-V2 模型家族中的全模态成员。它的核心设计理念：感知和行动不是分开的两个阶段，而是一个连续的推理过程。

架构：统一感知流


图片编码器 ─┐
视频编码器 ─┼→ 共享骨干网络（Single Shared Backbone）→ 工具调用 / UI 锚定 / 结构化输出
音频编码器 ─┘

关键区别：不是把图片、音频、文字三种能力"拼"在一起，而是从一开始就融合成一个统一的感知流。模型同时看、听、读，像一个在真实世界操作的 Agent 一样。

训练思路：预测未来，而非描述现在

大多数多模态模型被训练来"描述当前场景"。MiMo-V2-Omni 被训练来回答三个问题：

1. 场景里有什么？

2. 接下来会发生什么？

3. 现在该做什么？

从第一步训练开始，感知和行动就是一体的。

Benchmark 表现

模态	Benchmark	对比结果
音频	MMAU-Pro, BigBench-Audio	超越 Gemini 3 Pro
图像	MMMU-Pro, CharXiv RQ	超越 Claude Opus 4.6，接近 Gemini 3
视频	VideoMME, FutureOmni	原生音视频联合输入
Web/UI	多项核心指标	超越 Gemini 3 Pro 和 GPT-5.2

核心能力

音频理解（超越同行）

超过 10 小时连续音频理解（大多数模型做不到）
环境音分类（不只是语音转录）
多说话人分离
音视频联合推理
7 小时播客单次通过摘要（不切块、不中间总结）

视频理解 + 情境预测

原生音视频联合输入
不仅能看懂"发生了什么"，还能预测"接下来会怎样"
自动驾驶风险实时评估（行车记录仪直接输入，输出时间轴风险标注）

跨模态深度理解

能理解声音和画面的语义关联（不是机械标注）
示例：分析电影片段时，能理解"女儿把母亲切菜声想象成熊猫吃竹子"背后的蒙太奇结构和隐喻

Agent 原生能力

结构化工具调用
函数执行
UI 锚定（可直接操作浏览器界面）
浏览器原生自动化（购物比价、社交媒体发布、结账等）

实际演示案例

1. 自动驾驶风险分析

输入一段行车记录仪视频（沿海小镇驾驶），模型输出逐秒风险标注：

00:02 环岛让行风险：深绿色轿车从左侧进入
00:22 关键交叉路口：银色 SUV 左侧汇入，能见度差
02:59 乱穿马路：粉色上衣行人逆行穿越
每个风险点包含具体的时间戳、风险等级和建议动作

2. 电影跨模态分析

输入电影《The Good Thing》片段，模型用中文输出完整的：

蒙太奇结构分析（听觉-视觉对应关系）
关键场景意象解码（"熊猫吃竹子"= 母亲折芹菜，"泥石流"= 橘子滚落楼梯）
视觉风格与光影分析
角色动态与主题总结

3. 长音频摘要

输入一整期 7 小时播客（无切片），单次通过输出结构化摘要，捕捉的不是孤立话题而是贯穿数小时的论证逻辑链。

MiMo-V2 全家桶

模型	定位	参数	上下文	价格
MiMo-V2-Pro	旗舰推理	>1T/42B (MoE)	1M tokens	$1.00-$2.00 输入
MiMo-V2-Omni	全模态	未公开	256K tokens	$0.40 / $2.00
MiMo-V2-Flash	极致效率	309B/15B (MoE)	256K tokens	$0.10 / $0.30
MiMo-V2-TTS	语音合成	未公开	8K tokens	免费

价格对比

模型	输入 / 百万 token	输出 / 百万 token
GPT-4o	$2.50	$10.00
Claude Opus 4	$15.00	$75.00
Gemini 3 Pro	~$1.25	~$10.00
MiMo-V2-Omni	$0.40	$2.00
MiMo-V2-Flash	$0.10	$0.30

MiMo-V2-Omni 的价格是 GPT-4o 的 1/5 到 1/6，MiMo-V2-Flash 更是 1/25。

分析

优势：

价格杀手：$0.40 输入价格在同类模型中最低之一
真正的全模态融合：不是 bolt-on，是架构级统一
长音频理解：10+ 小时连续音频，绝大多数模型做不到
Agent 原生：工具调用、UI 锚定、浏览器自动化开箱即用
OpenAI 兼容 API：迁移成本几乎为零
实测好评：Reddit 用户反馈"最接近 GPT-4o 和 5.1 的体验"

风险：

参数量未公开，透明度不足
闭源，无法本地部署
中国公司，数据隐私和合规需关注
3 周前刚发布，生产稳定性有待验证
音频理解虽然强，但语音合成（TTS）是独立模型，不是同一个
与 GPT-5.2 / Gemini 3 的对比来自官方，独立验证有限

与 Jay 的关联：

价格优势直接可用：$0.40/百万 token，OpenClaw 可以接入作为低成本多模态模型
10 小时音频理解对播客摘要场景有价值（Jay 有 podcast 项目）
浏览器自动化能力可与小虾 Agent 架构互补
Flash 版本 $0.10 输入：适合高频低延迟场景（如飞书/Discord bot）
MiMo-V2-Pro 的 1M context 对深度研究场景有吸引力

评分

维度	评分 (1-10)	说明
创新性	8	统一感知流 + 预测未来训练，架构有新意
实用性	9	价格极低、API 兼容、Agent 原生
性能	8	多项 benchmark 超越 GPT-5.2/Gemini 3 Pro，但需独立验证
文档	7	官网详细，但技术论文/开源代码缺失
生态	7	OpenAI 兼容，多工具支持，但非开源
可靠性	6	刚发布 3 周，闭源，生产验证不足
总分	7.5	价格屠夫级全模态模型，Agent 时代的强力基座