小米 MiMo-V2.5-Pro-UltraSpeed — 1T 模型推理速度突破 1000 tps

来源: https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
来源 2: https://www.tilert.ai/blog/breaking-1000-tps.html (TileRT 技术博客)
来源 3: https://decrypt.co/370449/xiaomi-mimo-ultraspeed-ai-model-faster-chatgpt-claude
来源 4: https://news.ycombinator.com/item?id=48446639 (HN 500+ points)
来源 5: https://www.marktechpost.com/2026/06/08/xiaomi-mimo-and-tilert-push-a-1-trillion-parameter-model-past-1000-tokens-per-second-on-commodity-gpus/
日期: 2026-06-08 发布，2026-06-09 研究
评分: ⭐⭐⭐⭐⭐（今天最重要的 AI 基础设施新闻）

一句话版本

小米联手 TileRT，用 FP4 量化 + 投机解码 + 自研推理引擎三大招，在普通 8 卡商用 GPU 节点上把万亿参数模型的推理速度跑到了 1000+ tokens/s——比 ChatGPT 和 Claude 快 15 倍，而且模型质量不降。

指标	数值
模型	MiMo-V2.5-Pro（MoE 架构，~1T 参数）
推理速度	1000+ tokens/s（峰值 ~1200 tps）
硬件	1 台标准 8-GPU 商用节点
对比	Claude Opus 4.6 ≈ 71 tps, Gemini Flash ≈ 192 tps
价格	标准版的 3 倍价格，10 倍速度
可用	API 申请制，6 月 9 日-23 日试运行
开源	FP4 量化权重 + DFlash 参数已上 HF

意义：之前做到 1000+ tps 的公司（Cerebras、Groq）靠的是定制硬件。小米用商业现货 GPU + 极致的模型-系统协同设计达成了同样的速度，这才是真正的工程突破。

核心创新：传统投机解码用小模型逐个猜 token（串行），DFlash 用掩码并行预测——一次前向填满一整块掩码位置。

关键设计：

这是真正范式级的创新，不是简单的算子优化。

核心痛点：在 1000+ tps 频率下，每个算子的生命周期被压缩到微秒级。传统推理系统中"算子边界"的开销（host launch、硬件同步、全局内存往返）变成了主要瓶颈。

TileRT 的解决方案：

1. Persistent Engine Kernel：抛弃传统的逐算子启动模式，整个计算管线持久驻留在 GPU 内持续流动

2. Warp Specialization：在同一 Tile 级别，通信、数据搬运、张量计算被物理分解为更细粒度的操作，不同 Warp 组各自独立协调工作

3. 微秒级瓶颈分析：传统推理中无关紧要的 RMSNorm、RoPE、KV Cache 写入等辅助操作，在 1000+ tps 下变成严重延迟障碍

关键洞察：当推理系统已经把硬件推到极限，模型架构本身的特性仍然在注入冗余执行开销。此时必须模型和系统双向协同设计才能突破天花板。

小米的突破在于：不是专用硬件，而是纯工程优化。这意味着同样的技术路线可以被复制到其他模型和硬件上。

1. 推理速度不再是瓶颈：1000 tps 意味着万亿参数模型可以进入实时决策场景

2. 模型-系统协同设计是新范式：纯模型优化 OR 纯系统优化都到极限了

3. 中国团队的工程实力：小米 MiMo 和 TileRT 的合作展示了世界级的模型推理工程能力

4. DeepSeek 后的又一里程碑：继 DeepSeek 证明训练效率可以打破 Scaling Law 后，小米证明了推理速度也可以通过工程创新大幅突破

5. TileRT 团队值得关注：这个团队做出了真正范式级的推理系统

我的判断：这是 DeepSeek V3/R1 以来最重要的中国 AI 基础设施新闻。推理速度从 50-200 tps 到 1000+ tps 不是量变而是质变——当模型快到不需要等待，整个 AI 应用的产品设计范式都会改变。

维度	评分	说明
技术突破	⭐⭐⭐⭐⭐	1T 模型 1000+ tps 在标准 GPU 上是真突破
工程深度	⭐⭐⭐⭐⭐	FP4+DFlash+Persistent Engine 三层创新
与我们关联	⭐⭐⭐⭐⭐	推理速度直接决定 AI agent 体验
信息完整度	⭐⭐⭐⭐	技术博客很详细，但 benchmark 对比不够全面
时效性	⭐⭐⭐⭐⭐	10 小时前刚发布

https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
https://www.tilert.ai/blog/breaking-1000-tps.html
https://decrypt.co/370449/xiaomi-mimo-ultraspeed-ai-model-faster-chatgpt-claude
https://news.ycombinator.com/item?id=48446639
https://www.marktechpost.com/2026/06/08/xiaomi-mimo-and-tilert-push-a-1-trillion-parameter-model-past-1000-tokens-per-second-on-commodity-gpus/
https://platform.xiaomimimo.com/docs/en-US/model-intro/mimo-v2.5-pro-ultraspeed
https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

指标	数值
模型	MiMo-V2.5-Pro（MoE 架构，~1T 参数）
推理速度	1000+ tokens/s（峰值 ~1200 tps）
硬件	1 台标准 8-GPU 商用节点
对比	Claude Opus 4.6 ≈ 71 tps, Gemini Flash ≈ 192 tps
价格	标准版的 3 倍价格，10 倍速度
可用	API 申请制，6 月 9 日-23 日试运行
开源	FP4 量化权重 + DFlash 参数已上 HF