MiMo-V2-Omni — 小米的全模态 Agent 基座模型

> 一句话版本:小米推出的"全感官 AI",能同时看图、听音、读文字,不只是理解当前发生了什么,还能预测接下来会发生什么、应该怎么做。定价极低(输入 $0.40/百万 token),多个 benchmark 超越 GPT-5.2 和 Gemini 3 Pro。

项目信息
来源https://mimo.xiaomi.com/mimo-v2-omni
团队小米
发布时间2026-03-18
上下文256K tokens
API 价格输入 $0.40 / 百万 token,输出 $2.00 / 百万 token
API 兼容OpenAI 格式,兼容 Claude Code / Cline / Roo Code / OpenRouter 等

核心内容

MiMo-V2-Omni 是小米 MiMo-V2 模型家族中的全模态成员。它的核心设计理念:感知和行动不是分开的两个阶段,而是一个连续的推理过程

架构:统一感知流


图片编码器 ─┐
视频编码器 ─┼→ 共享骨干网络(Single Shared Backbone)→ 工具调用 / UI 锚定 / 结构化输出
音频编码器 ─┘

关键区别:不是把图片、音频、文字三种能力"拼"在一起,而是从一开始就融合成一个统一的感知流。模型同时看、听、读,像一个在真实世界操作的 Agent 一样。

训练思路:预测未来,而非描述现在

大多数多模态模型被训练来"描述当前场景"。MiMo-V2-Omni 被训练来回答三个问题:

1. 场景里有什么?

2. 接下来会发生什么?

3. 现在该做什么?

从第一步训练开始,感知和行动就是一体的。

Benchmark 表现

模态Benchmark对比结果
音频MMAU-Pro, BigBench-Audio**超越 Gemini 3 Pro**
图像MMMU-Pro, CharXiv RQ**超越 Claude Opus 4.6,接近 Gemini 3**
视频VideoMME, FutureOmni原生音视频联合输入
Web/UI多项核心指标**超越 Gemini 3 Pro 和 GPT-5.2**

核心能力

音频理解(超越同行)

视频理解 + 情境预测

跨模态深度理解

Agent 原生能力

实际演示案例

1. 自动驾驶风险分析

输入一段行车记录仪视频(沿海小镇驾驶),模型输出逐秒风险标注:

2. 电影跨模态分析

输入电影《The Good Thing》片段,模型用中文输出完整的:

3. 长音频摘要

输入一整期 7 小时播客(无切片),单次通过输出结构化摘要,捕捉的不是孤立话题而是贯穿数小时的论证逻辑链。

MiMo-V2 全家桶

模型定位参数上下文价格
**MiMo-V2-Pro**旗舰推理>1T/42B (MoE)1M tokens$1.00-$2.00 输入
**MiMo-V2-Omni**全模态未公开256K tokens**$0.40 / $2.00**
**MiMo-V2-Flash**极致效率309B/15B (MoE)256K tokens**$0.10 / $0.30**
**MiMo-V2-TTS**语音合成未公开8K tokens**免费**

价格对比

模型输入 / 百万 token输出 / 百万 token
GPT-4o$2.50$10.00
Claude Opus 4$15.00$75.00
Gemini 3 Pro~$1.25~$10.00
**MiMo-V2-Omni****$0.40****$2.00**
**MiMo-V2-Flash****$0.10****$0.30**

MiMo-V2-Omni 的价格是 GPT-4o 的 1/5 到 1/6,MiMo-V2-Flash 更是 1/25

分析

优势

风险

与 Jay 的关联

评分

维度评分 (1-10)说明
创新性8统一感知流 + 预测未来训练,架构有新意
实用性9价格极低、API 兼容、Agent 原生
性能8多项 benchmark 超越 GPT-5.2/Gemini 3 Pro,但需独立验证
文档7官网详细,但技术论文/开源代码缺失
生态7OpenAI 兼容,多工具支持,但非开源
可靠性6刚发布 3 周,闭源,生产验证不足
**总分****7.5**价格屠夫级全模态模型,Agent 时代的强力基座