Solaris — 谢赛宁团队的多玩家视频世界模型
> 一句话版本:第一个能同时模拟多个玩家视角的 AI 世界模型——在 Minecraft 里,两个 AI 玩家同时行动,模型能生成一致的多人第一人称画面,而且开源了全部代码、模型和数据采集系统。
| 项目 | 信息 |
|---|---|
| 来源 | https://arxiv.org/abs/2602.22208 |
| 项目页 | https://solaris-wm.github.io |
| 代码 | https://github.com/solaris-wm/solaris |
| 模型 | https://huggingface.co/collections/nyu-visionx/solaris-models |
| 作者 | Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, **Saining Xie** |
| 机构 | NYU VisionX Lab |
| 发表 | 2026-02-26(arXiv preprint) |
核心内容
解决什么问题?
现有视频世界模型(如 OpenAI 的 Sora、Google 的 VideoPoet)都只能处理单玩家视角——一次生成一个人的画面。但真实世界是多智能体互动的:你和朋友一起打怪、一起盖房子、互相追着跑。
Solaris 是第一个多人视频世界模型:同时为多个玩家生成一致的、视角不同的第一人称画面。
为什么选 Minecraft?
- 复杂度够高:3D 环境、物理交互、建筑、战斗、探索
- 可控性好:可以精确控制 bot 行为,收集高质量数据
- 社区成熟:Mineflayer、VPT 等工具链完善
- 动作空间标准化:VPT 数据集定义了人类玩家的动作格式
SolarisEngine — 数据采集系统(核心贡献之一)
现有平台(Malmo、MineRL、MineDojo、Mineflayer)都是为单人设计的,没有现成的多人数据采集工具,所以团队从零造了一个:
| 组件 | 技术 |
|---|---|
| 控制 Bot | Mineflayer(寻路、放方块、战斗等高层原语) |
| 通信层 | 自建,让两个 bot 协调配合 |
| 视觉采集 | 官方 Minecraft Java Client(headless 模式) |
| 同步 | 服务端插件,实时镜像位置/朝向/动画 |
| 对齐 | 时间戳对齐,20 FPS |
| 编排 | Docker Compose 容器化,Python 脚本并行管理 |
| 容错 | 自动检测失败、中止当前回合、全新状态重启 |
数据集规模:
- 9,240 个多人回合
- 6.32M 帧/玩家(合计 12.64M 帧)
- 8 种任务类型:建房、搭桥、PvP、PvE、追逐、探索、挖矿、收集
- 动作标注:VPT 格式(移动、相机、交互输入)
- 第一个带动作标注的多人 Minecraft 数据集
Solaris 模型架构
基于 MatrixGame 2.0(单人视频 DiT)改造:
MatrixGame 2.0 (单人)
+ 扩展动作空间(VPT 全量输入)
+ 多人自注意力层(所有玩家的 token 拼接后互相 attend)
+ 3D 旋转位置编码(每个玩家独立)+ 学习型玩家 ID embedding
= Solaris (多人)
关键设计:
- Flow Matching + Diffusion Forcing:每个玩家、每个时间步独立采样噪声级别
- 架构通用性:虽然目前训练两人,但可扩展到任意数量玩家
- 渐进式训练:单人 → 多人,分阶段逐步适应
Self Forcing + Checkpointed Self Forcing
自回归视频生成的核心问题:训练时用 ground truth 上下文,推理时用自己生成的输出,训练-推理不匹配导致长序列质量崩塌。
Self Forcing:训练时让模型自回归展开,然后用预训练的双向教师模型提供分布损失,缩小训练-推理差距。
Checkpointed Self Forcing(本文新提出):
- 标准 Self Forcing 需要教师模型处理整个展开序列,显存爆炸
- Checkpointed 版本:把长序列分段,每段独立加载教师检查点,用 ~4x 显存就能跑 2x 长度的序列
- 实测效果:长程生成质量显著提升,视觉退化大幅减少
评估框架
团队设计了 5 个多人评估维度:
| 维度 | 测什么 |
|---|---|
| Movement | 多人移动的物理合理性 |
| Grounding | 动作与视觉的一致性 |
| Memory | 长序列中的记忆保持 |
| Building | 建筑任务的执行质量 |
| Consistency | **多人视角一致性**(核心指标) |
分析
优势:
- 第一性:首个多人视频世界模型,开辟了新方向
- 工程完整:从数据采集系统到模型到评估框架,全链路开源
- SolarisEngine 可复用:Docker 化的多人 Minecraft 数据采集,对社区价值大
- Checkpointed Self Forcing:实用的训练技巧,可迁移到其他长序列生成任务
- 基于 MatrixGame 2.0:站在巨人肩膀上,不需要从零训练基础模型
- 团队强大:Saining Xie + NYU VisionX,DiT 的联合作者
局限:
- 只在 Minecraft 上验证,现实世界复杂度远超 Minecraft
- 2 人场景,虽然架构可扩展但未验证更多玩家
- 视频质量仍有明显的人工痕迹(非 photorealistic)
- 世界模型路线(vs LLM 路线)的商业化路径不清晰
- 目前是 preprint,未发表在顶级会议
与 AMI Labs 的关系:
- Solaris 是谢赛宁在 NYU 期间的工作,不是 AMI Labs 的项目
- 但技术路线一脉相承:世界模型 + 视频理解 + 多模态
- Solaris 团队成员(Oscar Michel、Suppakit Waiwitlikhit 等)也在 AMI Labs 的招聘名单中
- 可以把 Solaris 看作 AMI Labs 技术路线的"学术预演"
与 Jay 的关联:
- 多人世界模型如果成熟,对游戏 AI、机器人协作、自动驾驶仿真都有深远影响
- SolarisEngine 的 Docker 化数据采集思路可以借鉴到其他自动化场景
- Checkpointed Self Forcing 是通用的长序列训练技巧
评分
| 维度 | 评分 (1-10) | 说明 |
|---|---|---|
| 创新性 | 8 | 首个多人视频世界模型 + Checkpointed Self Forcing |
| 工程质量 | 9 | 全链路开源(数据系统 + 模型 + 评估),Docker 化采集 |
| 实用价值 | 6 | 学术价值高,但 Minecraft 限制了大范围应用 |
| 技术深度 | 8 | 渐进式训练 + Self Forcing + 多人注意力设计扎实 |
| 可扩展性 | 7 | 架构支持 N 人,但未验证;从 Minecraft 到现实差距大 |
| 与 Jay 的关联 | 6 | 世界模型方向相关,但直接应用场景有限 |
| **总分** | **7.3** | 世界模型研究的重要一步,特别是多人方向的开创性工作 |