Solaris — 谢赛宁团队的多玩家视频世界模型

> 一句话版本：第一个能同时模拟多个玩家视角的 AI 世界模型——在 Minecraft 里，两个 AI 玩家同时行动，模型能生成一致的多人第一人称画面，而且开源了全部代码、模型和数据采集系统。

项目	信息
来源	https://arxiv.org/abs/2602.22208
项目页	https://solaris-wm.github.io
代码	https://github.com/solaris-wm/solaris
模型	https://huggingface.co/collections/nyu-visionx/solaris-models
作者	Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie
机构	NYU VisionX Lab
发表	2026-02-26（arXiv preprint）

核心内容

现有视频世界模型（如 OpenAI 的 Sora、Google 的 VideoPoet）都只能处理单玩家视角——一次生成一个人的画面。但真实世界是多智能体互动的：你和朋友一起打怪、一起盖房子、互相追着跑。

Solaris 是第一个多人视频世界模型：同时为多个玩家生成一致的、视角不同的第一人称画面。

现有平台（Malmo、MineRL、MineDojo、Mineflayer）都是为单人设计的，没有现成的多人数据采集工具，所以团队从零造了一个：

组件	技术
控制 Bot	Mineflayer（寻路、放方块、战斗等高层原语）
通信层	自建，让两个 bot 协调配合
视觉采集	官方 Minecraft Java Client（headless 模式）
同步	服务端插件，实时镜像位置/朝向/动画
对齐	时间戳对齐，20 FPS
编排	Docker Compose 容器化，Python 脚本并行管理
容错	自动检测失败、中止当前回合、全新状态重启

数据集规模：

基于 MatrixGame 2.0（单人视频 DiT）改造：


MatrixGame 2.0 (单人)
  + 扩展动作空间（VPT 全量输入）
  + 多人自注意力层（所有玩家的 token 拼接后互相 attend）
  + 3D 旋转位置编码（每个玩家独立）+ 学习型玩家 ID embedding
  = Solaris (多人)

关键设计：

自回归视频生成的核心问题：训练时用 ground truth 上下文，推理时用自己生成的输出，训练-推理不匹配导致长序列质量崩塌。

Self Forcing：训练时让模型自回归展开，然后用预训练的双向教师模型提供分布损失，缩小训练-推理差距。

Checkpointed Self Forcing（本文新提出）：

团队设计了 5 个多人评估维度：

优势：

局限：

与 AMI Labs 的关系：

与 Jay 的关联：

维度	评分 (1-10)	说明
创新性	8	首个多人视频世界模型 + Checkpointed Self Forcing
工程质量	9	全链路开源（数据系统 + 模型 + 评估），Docker 化采集
实用价值	6	学术价值高，但 Minecraft 限制了大范围应用
技术深度	8	渐进式训练 + Self Forcing + 多人注意力设计扎实
可扩展性	7	架构支持 N 人，但未验证；从 Minecraft 到现实差距大
与 Jay 的关联	6	世界模型方向相关，但直接应用场景有限
总分	7.3	世界模型研究的重要一步，特别是多人方向的开创性工作