LeWorldModel (LeWM) — 首个端到端稳定的 JEPA 世界模型

来源: arXiv:2603.19312

日期: 2026-04-07

研究者: 托尼 🦾

一句话版本

LeWorldModel 是第一个能从原始像素端到端稳定训练的 JEPA 世界模型——只用两个损失函数、15M 参数、单 GPU 几小时就能训练,规划速度比基于 foundation model 的方案快 48 倍。

核心问题

JEPA(Joint Embedding Predictive Architecture) 是 Yann LeCun 提出的世界模型学习框架:在紧凑的潜空间中做预测,而不是在像素空间中做生成。

但现有 JEPA 方法很脆弱:

LeWM 的解决方案

两个损失函数解决一切

1. Next-embedding prediction loss — 预测下一个潜空间嵌入

2. Gaussian regularizer — 强制潜嵌入服从高斯分布

对比

实验结果

指标LeWM对比方案
参数量~15M通常 100M+
训练硬件单 GPU多 GPU/TPU
训练时间几小时数天
规划速度基准慢 48 倍
任务类型2D + 3D 控制同等

额外发现

为什么重要

1. 让 JEPA 真正可用:不再需要复杂工程技巧就能训练

2. 世界模型民主化:单 GPU、几小时 = 学术界/小团队也能做

3. LeCun 路线的验证:JEPA 框架确实可行,只是之前实现太复杂

4. 规划效率:48 倍提速对实时控制(机器人、游戏 AI)意义重大

与 LLM 路线的对比

维度JEPA/LeWMLLM (GPT 系列)
学习方式潜空间预测token 预测
世界理解物理结构 + 因果统计模式
计算成本低(15M 参数)高(百亿+参数)
适用领域控制、规划、机器人语言、推理、对话
LeCun 观点未来方向"只是在做模式匹配"

LeWM 代表了 LeCun 世界模型路线的一个重要里程碑——证明了端到端训练 JEPA 是可行的。

作者

链接

评分

维度评分说明
理论贡献⭐⭐⭐⭐⭐首个端到端稳定 JEPA
工程简洁性⭐⭐⭐⭐⭐2 个损失函数,6→1 超参数
实验充分性⭐⭐⭐⭐☆2D/3D 控制任务验证
实用性⭐⭐⭐⭐☆单 GPU 几小时训练
影响力潜力⭐⭐⭐⭐⭐LeCun 路线的重要里程碑
**综合****4.5/5**世界模型领域的重要突破