小米 MiMo-V2.5-Pro-UltraSpeed — 1T 模型推理速度突破 1000 tps

一句话版本

小米联手 TileRT,用 FP4 量化 + 投机解码 + 自研推理引擎三大招,在普通 8 卡商用 GPU 节点上把万亿参数模型的推理速度跑到了 1000+ tokens/s——比 ChatGPT 和 Claude 快 15 倍,而且模型质量不降。

1. 核心数字

指标数值
**模型**MiMo-V2.5-Pro(MoE 架构,~1T 参数)
**推理速度****1000+ tokens/s**(峰值 ~1200 tps)
**硬件****1 台标准 8-GPU 商用节点**
**对比**Claude Opus 4.6 ≈ 71 tps, Gemini Flash ≈ 192 tps
**价格**标准版的 3 倍价格,10 倍速度
**可用**API 申请制,6 月 9 日-23 日试运行
**开源**FP4 量化权重 + DFlash 参数已上 HF

意义:之前做到 1000+ tps 的公司(Cerebras、Groq)靠的是定制硬件。小米用商业现货 GPU + 极致的模型-系统协同设计达成了同样的速度,这才是真正的工程突破。

2. 三大技术支柱

2.1 FP4 量化(MXFP4)

2.2 DFlash 投机解码(Speculative Decoding)

核心创新:传统投机解码用小模型逐个猜 token(串行),DFlash 用掩码并行预测——一次前向填满一整块掩码位置。

场景接受长度(/8)
**Coding****6.30**(最佳 7.14)
**Math / Reasoning**5.56
**Agent**4.29

关键设计:

2.3 TileRT 推理系统

这是真正范式级的创新,不是简单的算子优化。

核心痛点:在 1000+ tps 频率下,每个算子的生命周期被压缩到微秒级。传统推理系统中"算子边界"的开销(host launch、硬件同步、全局内存往返)变成了主要瓶颈。

TileRT 的解决方案

1. Persistent Engine Kernel:抛弃传统的逐算子启动模式,整个计算管线持久驻留在 GPU 内持续流动

2. Warp Specialization:在同一 Tile 级别,通信、数据搬运、张量计算被物理分解为更细粒度的操作,不同 Warp 组各自独立协调工作

3. 微秒级瓶颈分析:传统推理中无关紧要的 RMSNorm、RoPE、KV Cache 写入等辅助操作,在 1000+ tps 下变成严重延迟障碍

关键洞察:当推理系统已经把硬件推到极限,模型架构本身的特性仍然在注入冗余执行开销。此时必须模型和系统双向协同设计才能突破天花板。

3. 与同类对比

方案速度模型硬件
**MiMo UltraSpeed****1000+ tps**1T MoE标准 8×GPU
Groq~800 tps较小模型定制 LPU
Cerebras~1000 tps较小模型Wafer-Scale
Claude Opus 4.6~71 tps~1T?标准 GPU
Gemini Flash~192 tps~?Google TPU
DeepSeek V4 Pro~50 tps~?标准 GPU

小米的突破在于:不是专用硬件,而是纯工程优化。这意味着同样的技术路线可以被复制到其他模型和硬件上。

4. 应用场景(来自官方博客)

5. 开放与可用性

API 申请

开源

6. 对行业的意义

1. 推理速度不再是瓶颈:1000 tps 意味着万亿参数模型可以进入实时决策场景

2. 模型-系统协同设计是新范式:纯模型优化 OR 纯系统优化都到极限了

3. 中国团队的工程实力:小米 MiMo 和 TileRT 的合作展示了世界级的模型推理工程能力

4. DeepSeek 后的又一里程碑:继 DeepSeek 证明训练效率可以打破 Scaling Law 后,小米证明了推理速度也可以通过工程创新大幅突破

5. TileRT 团队值得关注:这个团队做出了真正范式级的推理系统

我的判断:这是 DeepSeek V3/R1 以来最重要的中国 AI 基础设施新闻。推理速度从 50-200 tps 到 1000+ tps 不是量变而是质变——当模型快到不需要等待,整个 AI 应用的产品设计范式都会改变。

7. 评分表

维度评分说明
**技术突破**⭐⭐⭐⭐⭐1T 模型 1000+ tps 在标准 GPU 上是真突破
**工程深度**⭐⭐⭐⭐⭐FP4+DFlash+Persistent Engine 三层创新
**与我们关联**⭐⭐⭐⭐⭐推理速度直接决定 AI agent 体验
**信息完整度**⭐⭐⭐⭐技术博客很详细,但 benchmark 对比不够全面
**时效性**⭐⭐⭐⭐⭐10 小时前刚发布

来源链接

备注:Decrypt 文章未能完整抓取(页面被加密货币行情阻塞),关键数据点来自交叉验证。