Solaris — 谢赛宁团队的多玩家视频世界模型

> 一句话版本:第一个能同时模拟多个玩家视角的 AI 世界模型——在 Minecraft 里,两个 AI 玩家同时行动,模型能生成一致的多人第一人称画面,而且开源了全部代码、模型和数据采集系统。

项目信息
来源https://arxiv.org/abs/2602.22208
项目页https://solaris-wm.github.io
代码https://github.com/solaris-wm/solaris
模型https://huggingface.co/collections/nyu-visionx/solaris-models
作者Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, **Saining Xie**
机构NYU VisionX Lab
发表2026-02-26(arXiv preprint)

核心内容

解决什么问题?

现有视频世界模型(如 OpenAI 的 Sora、Google 的 VideoPoet)都只能处理单玩家视角——一次生成一个人的画面。但真实世界是多智能体互动的:你和朋友一起打怪、一起盖房子、互相追着跑。

Solaris 是第一个多人视频世界模型:同时为多个玩家生成一致的、视角不同的第一人称画面。

为什么选 Minecraft?

SolarisEngine — 数据采集系统(核心贡献之一)

现有平台(Malmo、MineRL、MineDojo、Mineflayer)都是为单人设计的,没有现成的多人数据采集工具,所以团队从零造了一个:

组件技术
控制 BotMineflayer(寻路、放方块、战斗等高层原语)
通信层自建,让两个 bot 协调配合
视觉采集官方 Minecraft Java Client(headless 模式)
同步服务端插件,实时镜像位置/朝向/动画
对齐时间戳对齐,20 FPS
编排Docker Compose 容器化,Python 脚本并行管理
容错自动检测失败、中止当前回合、全新状态重启

数据集规模

Solaris 模型架构

基于 MatrixGame 2.0(单人视频 DiT)改造:


MatrixGame 2.0 (单人)
  + 扩展动作空间(VPT 全量输入)
  + 多人自注意力层(所有玩家的 token 拼接后互相 attend)
  + 3D 旋转位置编码(每个玩家独立)+ 学习型玩家 ID embedding
  = Solaris (多人)

关键设计:

Self Forcing + Checkpointed Self Forcing

自回归视频生成的核心问题:训练时用 ground truth 上下文,推理时用自己生成的输出,训练-推理不匹配导致长序列质量崩塌。

Self Forcing:训练时让模型自回归展开,然后用预训练的双向教师模型提供分布损失,缩小训练-推理差距。

Checkpointed Self Forcing(本文新提出):

评估框架

团队设计了 5 个多人评估维度:

维度测什么
Movement多人移动的物理合理性
Grounding动作与视觉的一致性
Memory长序列中的记忆保持
Building建筑任务的执行质量
Consistency**多人视角一致性**(核心指标)

分析

优势

局限

与 AMI Labs 的关系

与 Jay 的关联

评分

维度评分 (1-10)说明
创新性8首个多人视频世界模型 + Checkpointed Self Forcing
工程质量9全链路开源(数据系统 + 模型 + 评估),Docker 化采集
实用价值6学术价值高,但 Minecraft 限制了大范围应用
技术深度8渐进式训练 + Self Forcing + 多人注意力设计扎实
可扩展性7架构支持 N 人,但未验证;从 Minecraft 到现实差距大
与 Jay 的关联6世界模型方向相关,但直接应用场景有限
**总分****7.3**世界模型研究的重要一步,特别是多人方向的开创性工作