Cloudflare AI Platform — 统一推理层,一个 API 调 14+ 供应商 70+ 模型
> 一句话版本:Cloudflare 把 AI Gateway 升级为统一推理层——一个 API 调 OpenAI、Anthropic、Google、字节、阿里等 14+ 供应商的 70+ 模型,自带自动故障转移、成本监控、流式断线恢复。还收购了 Replicate 团队。
| 项目 | 信息 |
|---|---|
| 来源 | [blog.cloudflare.com/ai-platform](https://blog.cloudflare.com/ai-platform/) |
| 发布日期 | 2026-04-16 |
| 作者 | Ming Lu, Michelle Chen |
| 背景 | Cloudflare Agents Week |
核心更新
1. 统一推理层:一个 API,所有模型
之前:调用 OpenAI 用 OpenAI SDK,调用 Anthropic 用 Anthropic SDK,各自管理 Key 和费用。
现在:
const response = await env.AI.run('anthropic/claude-opus-4-6', {
input: 'What is Cloudflare?',
}, {
gateway: { id: "default" },
});
- 一行代码切换模型(
@cf/前缀是 Workers AI 自托管,anthropic/是第三方) - 70+ 模型,14+ 供应商
- REST API 支持即将推出(非 Workers 环境也能用)
供应商列表:Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu + Cloudflare Workers AI 自托管
2. 自动故障转移(Auto Failover)
Agent 链式调用时,一个请求失败可能导致级联崩溃。AI Gateway 解决:
- 如果模型在多个供应商可用,一个挂了自动路由到另一个
- 零代码——不需要写 failover 逻辑
- 流式响应缓冲:Agent 中断后可以重连获取已生成的响应,不重复付费
3. 统一成本监控
- 一个仪表盘看所有供应商的 AI 花费
- 自定义 metadata 分类(按团队/用户/工作流)
- 企业平均使用 3.5 个模型,需要集中管理
await env.AI.run('@cf/moonshotai/kimi-k2.5',
{ prompt: 'What is AI Gateway?' },
{ metadata: { "teamId": "AI", "userId": 12345 } }
);
4. Bring Your Own Model(BYOM)
用 Replicate Cog 技术打包自定义模型:
# cog.yaml
build:
python_version: "3.13"
python_requirements: requirements.txt
predict: "predict.py:Predictor"
cog build→push to Workers AI→ 通过统一 API 访问- 正在做 GPU 快照加速冷启动
- 寻找设计合作伙伴
5. Replicate 团队加入
- Replicate 团队正式并入 Cloudflare AI Platform 团队
- Replicate 的模型将迁移到 AI Gateway
- Replicate 上部署的模型可以迁移到 Workers AI
6. 多模态扩展
- 不再只有文本模型
- 新增图像、视频、语音模型
- 包括实时语音模型
7. 极速首 Token
- 330 个全球数据中心,靠近用户和推理端点
- Workers AI 自托管模型 + AI Gateway = 同网络零额外跳转
- 对于实时 Agent,首 Token 延迟比总推理时间更影响体验
分析
Cloudflare 的 AI 布局全景(Agents Week):
| 产品 | 功能 |
|---|---|
| AI Gateway | 统一推理网关(本文) |
| Workers AI | 自托管开源模型 |
| Agents SDK | Agent 框架(onEmail、Durable Objects) |
| Email Service | Agent 邮箱接口(昨天发布) |
| Mesh | Agent 私有网络(之前报告过) |
| Replicate | 自定义模型托管 |
Cloudflare 正在构建完整的 Agent 基础设施栈——从模型推理到通信到网络到邮箱。
和竞品的对比:
| 维度 | Cloudflare AI Platform | OpenRouter | Azure AI |
|---|---|---|---|
| 模型数量 | 70+ | 200+ | 100+ |
| 自动故障转移 | ✅ | ✅ | ❌ |
| 自托管模型 | ✅ Workers AI | ❌ | ❌ |
| 全球边缘 | ✅ 330 城市 | ❌ | 有限 |
| 成本统一 | ✅ | ✅ | ✅ |
| BYOM | 🔄 Cog 即将支持 | ✅ | ✅ |
| 流式断线恢复 | ✅ | ❌ | ❌ |
优势:全球边缘网络 + 故障转移 + 流式恢复是 Cloudflare 的独特卖点。
劣势:模型数量比 OpenRouter 少,REST API 还没发布。
局限性:
- 统一 API 目前只支持 Workers 绑定,REST API "coming weeks"
- BYOM 功能还在早期,需要设计合作伙伴
- 70+ 模型中很多是图像/视频/语音,LLM 选择可能不如 OpenRouter 丰富
- 定价未详述
与 Jay 的关联
- OpenClaw 的模型调用目前直连各供应商,如果 Cloudflare AI Gateway 的 REST API 发布,可以作为统一代理层
- 自动故障转移对 OpenClaw 有价值——当前如果 Anthropic 挂了需要手动切换
- 成本监控统一看板解决了 Jay 之前关心的模型费用追踪问题
- Replicate + BYOM:如果 Jay 未来想部署自定义模型(比如 IndexTTS2),Cog + Workers AI 是一个选择
- Cloudflare 生态越来越完整:Mesh(网络)+ Email(通信)+ AI Platform(推理)+ Workers(计算)
评分
| 维度 | 评分 (1-10) | 说明 |
|---|---|---|
| 战略意义 | 9 | 统一推理层是 AI 基础设施的关键缺失块 |
| 技术设计 | 8 | 故障转移 + 流式恢复 + 边缘加速,思考到位 |
| 完成度 | 6 | REST API 未发布,BYOM 早期,模型数偏少 |
| 生态整合 | 9 | Replicate + Agents SDK + Email + Mesh 全链路 |
| 与 Jay 的关联 | 8 | OpenClaw 模型代理层的潜在方案 |
| **总分** | **8.0** | Cloudflare 正在成为 Agent 基础设施的水泥 |