小米 MiMo-V2.5-Pro-UltraSpeed — 1T 模型推理速度突破 1000 tps
- 来源: https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
- 来源 2: https://www.tilert.ai/blog/breaking-1000-tps.html (TileRT 技术博客)
- 来源 3: https://decrypt.co/370449/xiaomi-mimo-ultraspeed-ai-model-faster-chatgpt-claude
- 来源 4: https://news.ycombinator.com/item?id=48446639 (HN 500+ points)
- 来源 5: https://www.marktechpost.com/2026/06/08/xiaomi-mimo-and-tilert-push-a-1-trillion-parameter-model-past-1000-tokens-per-second-on-commodity-gpus/
- 日期: 2026-06-08 发布,2026-06-09 研究
- 评分: ⭐⭐⭐⭐⭐(今天最重要的 AI 基础设施新闻)
一句话版本
小米联手 TileRT,用 FP4 量化 + 投机解码 + 自研推理引擎三大招,在普通 8 卡商用 GPU 节点上把万亿参数模型的推理速度跑到了 1000+ tokens/s——比 ChatGPT 和 Claude 快 15 倍,而且模型质量不降。
1. 核心数字
| 指标 | 数值 |
|---|---|
| **模型** | MiMo-V2.5-Pro(MoE 架构,~1T 参数) |
| **推理速度** | **1000+ tokens/s**(峰值 ~1200 tps) |
| **硬件** | **1 台标准 8-GPU 商用节点** |
| **对比** | Claude Opus 4.6 ≈ 71 tps, Gemini Flash ≈ 192 tps |
| **价格** | 标准版的 3 倍价格,10 倍速度 |
| **可用** | API 申请制,6 月 9 日-23 日试运行 |
| **开源** | FP4 量化权重 + DFlash 参数已上 HF |
意义:之前做到 1000+ tps 的公司(Cerebras、Groq)靠的是定制硬件。小米用商业现货 GPU + 极致的模型-系统协同设计达成了同样的速度,这才是真正的工程突破。
2. 三大技术支柱
2.1 FP4 量化(MXFP4)
- 只对 MoE Expert 做 FP4 量化(其他模块保持原始精度)
- 模型能力与原始版基本持平(benchmark 对比见博客)
- 1T 模型如果直接 FP8/FP16 推理,内存带宽直接炸掉
- FP4 大幅缩小模型体积、降低内存访问开销
2.2 DFlash 投机解码(Speculative Decoding)
核心创新:传统投机解码用小模型逐个猜 token(串行),DFlash 用掩码并行预测——一次前向填满一整块掩码位置。
| 场景 | 接受长度(/8) |
|---|---|
| **Coding** | **6.30**(最佳 7.14) |
| **Math / Reasoning** | 5.56 |
| **Agent** | 4.29 |
关键设计:
- Draft 模型只用 Sliding Window Attention(与 MiMo-V2 系列天然对齐)
- 训练时 mask-signal 采样下沉到 GPU-local shard,避免跨设备通信
- Block size 限制为 8,降低验证开销
2.3 TileRT 推理系统
这是真正范式级的创新,不是简单的算子优化。
核心痛点:在 1000+ tps 频率下,每个算子的生命周期被压缩到微秒级。传统推理系统中"算子边界"的开销(host launch、硬件同步、全局内存往返)变成了主要瓶颈。
TileRT 的解决方案:
1. Persistent Engine Kernel:抛弃传统的逐算子启动模式,整个计算管线持久驻留在 GPU 内持续流动
2. Warp Specialization:在同一 Tile 级别,通信、数据搬运、张量计算被物理分解为更细粒度的操作,不同 Warp 组各自独立协调工作
3. 微秒级瓶颈分析:传统推理中无关紧要的 RMSNorm、RoPE、KV Cache 写入等辅助操作,在 1000+ tps 下变成严重延迟障碍
关键洞察:当推理系统已经把硬件推到极限,模型架构本身的特性仍然在注入冗余执行开销。此时必须模型和系统双向协同设计才能突破天花板。
3. 与同类对比
| 方案 | 速度 | 模型 | 硬件 |
|---|---|---|---|
| **MiMo UltraSpeed** | **1000+ tps** | 1T MoE | 标准 8×GPU |
| Groq | ~800 tps | 较小模型 | 定制 LPU |
| Cerebras | ~1000 tps | 较小模型 | Wafer-Scale |
| Claude Opus 4.6 | ~71 tps | ~1T? | 标准 GPU |
| Gemini Flash | ~192 tps | ~? | Google TPU |
| DeepSeek V4 Pro | ~50 tps | ~? | 标准 GPU |
小米的突破在于:不是专用硬件,而是纯工程优化。这意味着同样的技术路线可以被复制到其他模型和硬件上。
4. 应用场景(来自官方博客)
- Coding Agent:1000 tps 意味着代码生成不再需要开发者在屏幕前苦等
- Best-of-N / Tree Search:相同时间窗口内并行跑数十条推理路径,自动纠错
- 高频量化交易:毫秒级"思考-响应"循环
- 医疗辅助:病灶分析 + 风险预测的亚秒级响应
5. 开放与可用性
API 申请
- 平台:https://platform.xiaomimimo.com/ultraspeed
- 试运行期:6 月 9 日-23 日(北京时间 UTC+8)
- 每日对话上限:每账号 10 次入队
- 每次会话上限:30 分钟
- 闲置 5 分钟自动释放
- 优先面向有真实业务需求的企业和专业开发者
开源
- HuggingFace:https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
- 包含 FP4 量化权重 + DFlash 模型参数
6. 对行业的意义
1. 推理速度不再是瓶颈:1000 tps 意味着万亿参数模型可以进入实时决策场景
2. 模型-系统协同设计是新范式:纯模型优化 OR 纯系统优化都到极限了
3. 中国团队的工程实力:小米 MiMo 和 TileRT 的合作展示了世界级的模型推理工程能力
4. DeepSeek 后的又一里程碑:继 DeepSeek 证明训练效率可以打破 Scaling Law 后,小米证明了推理速度也可以通过工程创新大幅突破
5. TileRT 团队值得关注:这个团队做出了真正范式级的推理系统
我的判断:这是 DeepSeek V3/R1 以来最重要的中国 AI 基础设施新闻。推理速度从 50-200 tps 到 1000+ tps 不是量变而是质变——当模型快到不需要等待,整个 AI 应用的产品设计范式都会改变。
7. 评分表
| 维度 | 评分 | 说明 |
|---|---|---|
| **技术突破** | ⭐⭐⭐⭐⭐ | 1T 模型 1000+ tps 在标准 GPU 上是真突破 |
| **工程深度** | ⭐⭐⭐⭐⭐ | FP4+DFlash+Persistent Engine 三层创新 |
| **与我们关联** | ⭐⭐⭐⭐⭐ | 推理速度直接决定 AI agent 体验 |
| **信息完整度** | ⭐⭐⭐⭐ | 技术博客很详细,但 benchmark 对比不够全面 |
| **时效性** | ⭐⭐⭐⭐⭐ | 10 小时前刚发布 |
来源链接
- https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
- https://www.tilert.ai/blog/breaking-1000-tps.html
- https://decrypt.co/370449/xiaomi-mimo-ultraspeed-ai-model-faster-chatgpt-claude
- https://news.ycombinator.com/item?id=48446639
- https://www.marktechpost.com/2026/06/08/xiaomi-mimo-and-tilert-push-a-1-trillion-parameter-model-past-1000-tokens-per-second-on-commodity-gpus/
- https://platform.xiaomimimo.com/docs/en-US/model-intro/mimo-v2.5-pro-ultraspeed
- https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
备注:Decrypt 文章未能完整抓取(页面被加密货币行情阻塞),关键数据点来自交叉验证。