World Model:从强化学习到具身智能的完整入门
过去两年里,“世界模型”(World Model)突然变成了 AI 领域最拥挤也最混乱的词之一。
视频生成公司说自己在做世界模型,自动驾驶公司说自己在做世界模型,机器人公司也说自己在做世界模型。游戏引擎、3D 生成、强化学习、VLA、视频扩散模型、JEPA、物理仿真,全都被塞进了同一个词里。结果是:每个人都在谈 world model,但很多时候谈的并不是同一件事。
这篇文章试图把它从头到尾讲清楚。我的目标不是写一个论文清单,而是写一篇 tutorial:如果你第一次接触这个方向,读完应该能回答三个问题:
- world model 到底是什么,和 policy、VLA、仿真器、视频生成模型有什么区别?
- 学术界为什么从 model-based RL、Dreamer、MuZero 一路走到 JEPA、Genie、Cosmos?
- 工业界为什么会把 world model 视为具身智能、自动驾驶、机器人数据生成的下一代基础设施?
本文重点关注机器人、具身智能与自动驾驶语境。
注:本文由Claude Opus 4.7,ChatGPT5.5撰写,李阳编辑。
目录
- 1. 一句话定义:world model 是“可预测的环境”
- 2. 为什么 world model 又火了
- 3. 广义世界模型与狭义世界模型
- 4. 学术脉络:从 World Models 到 Foundation World Model 与 WAM
- 5. 今天的五条主流路线
- 6. 工业界在押什么
- 7. 机器人为什么比自动驾驶更难
- 8. 从 world model 到 world action model
- 9. 数据策略:为什么 play data 比 expert demo 更重要
- 10. 当前挑战
- 术语表
- References
1. 一句话定义:world model 是“可预测的环境”
最朴素的 world model 来自强化学习:
current state + action -> next state
s_t + a_t -> s_{t+1}
也就是说,智能体先观察当前状态 s_t,选择一个动作 a_t,world model 预测下一步状态 s_{t+1}。然后 policy 再根据新的状态选择动作,如此循环。
这听起来很简单,但它改变了智能体学习的方式。
没有 world model 时,智能体只能在真实环境里试错。机器人要真的伸手、真的碰撞、真的摔倒,自动驾驶车要真的开到某个边界场景里,游戏智能体也要真的跑完整局。这是 model-free learning 的基本模式。
有 world model 后,智能体可以先在模型里“想象”:
如果我向左转,会不会撞?
如果我先推杯子再抓杯柄,杯子会怎么动?
如果前车急刹,我现在加速会发生什么?
所以 world model 的价值不是“生成一段好看的未来视频”,而是给 agent 一个内部环境,让它能在真实行动之前进行预测、规划、反事实推理和策略训练。
一个好用的 world model 至少应该带来三件事。
第一是采样效率。真实机器人采数据很贵,GPU 上 rollout 很便宜。能在模型里训练,就能把一部分真实交互成本转成计算成本。
第二是长程规划。VLA 或 diffusion policy 往往像“反射”:看见当前图像和指令,直接吐动作。world model 则允许 agent 先展开未来几步,比较不同动作序列的后果。
第三是可评估性。policy 说“我要这么做”,world model 可以告诉你“我预计这么做会发生什么”。这让反事实评估、安全过滤、失败分析都变得更自然。
2. 为什么 world model 又火了
world model 并不是新概念。2018 年 Ha 和 Schmidhuber 的论文就叫 World Models。更早的 model-based reinforcement learning 也一直在学环境动力学。
它现在重新变热,是因为三条技术线在 2024-2026 年交汇了。
第一,视频生成模型突然变强。Sora、Veo、Genie、Cosmos、World Labs 让大家看到,大规模视频模型不仅能生成漂亮画面,还可能学到某种空间结构、物体持久性和粗粒度物理规律。虽然“看起来对”和“物理上对”之间还有距离,但这已经足够让工业界开始认真投入。
第二,具身智能遇到了数据瓶颈。VLA 模型把视觉、语言、动作接在一起,已经能做很多机器人任务,但它依赖大量 teleoperation 数据。机器人数据比互联网文本和视频贵几个数量级。world model 提供了一个诱人的方向:能不能用互联网视频、仿真数据、人类第一视角视频和少量机器人数据,训练一个可交互的“内部模拟器”?
第三,自动驾驶已经证明“反事实仿真”有巨大价值。真实道路上的 corner case 很稀少,但安全系统恰恰要处理稀少事件。world model 可以生成或重放危险场景,帮助 planner 和 policy 做闭环评估。
所以今天的 world model 热潮,本质上不是单篇论文带来的,而是大模型、视频生成、机器人学习、自动驾驶仿真共同推出来的。
3. 广义世界模型与狭义世界模型
讨论 world model 前,必须先区分两个口径。
3.1 广义 world model
广义地说,只要模型能根据已有信息预测未来,都可以叫 world model。
语言模型预测下一个 token,可以说它学了一个文本世界模型。视频模型预测下一段视频,可以说它学了视觉世界模型。游戏模型根据玩家输入生成下一帧,也可以叫交互式世界模型。
按照这个口径,Sora、Veo、Genie、Cosmos、World Labs Marble 都可以被放进 world model 大伞下。
3.2 狭义 world model
在机器人和强化学习里,world model 通常有更窄的意思:它必须是 action-conditioned。
也就是说,它不只是预测“下一帧长什么样”,而是预测“我做了这个动作以后,世界会怎么变”:
p(o_{t+1} | o_t, a_t)
这里 o_t 是当前观测,可以是图像、点云、关节状态、BEV occupancy 或 latent state;a_t 是动作,可以是键盘输入、车辆控制、机械臂末端位姿、关节角增量,也可以是一个自监督学出来的 latent action。
这一区别非常重要。被动视频预测可以用来看未来,但不一定能用于控制。机器人真正需要的是 counterfactual:如果我换一个动作,世界会怎样?
3.3 一个实用分类
我更喜欢用三个问题给 world model 分类:
预测什么?
- 像素:预测未来视频帧。
- latent:预测表征空间里的未来状态。
- 结构:预测物体、关节、occupancy、graph 或 keypoint 的变化。
- 动作:同时预测未来 action,变成 world action model。
吃不吃动作?
- 不吃动作:更像视频生成或未来预测。
- 吃动作:可以用于控制、规划和反事实推理。
- 自己学动作:从无标注视频中抽 latent action。
服务什么?
- 生成内容:视频、3D 世界、游戏环境。
- 评估策略:自动驾驶/机器人闭环仿真。
- 训练 policy:model-based RL、imagination rollout、数据生成。
- 理解物理:视觉表征、因果推断、常识推理。
用这个框架看,很多争论就消失了。Sora 可以是广义 world model,但不是机器人语境下完整的 action-conditioned dynamics model。Cosmos 更接近工业平台,因为它同时在做生成、预测、迁移和物理 AI 数据工具。V-JEPA 2 不生成像素,但它明确把世界状态放在表征空间里预测。
4. 学术脉络:从 World Models 到 Foundation World Model 与 WAM
如果只讲到 JEPA,确实会漏掉最近两年最关键的变化。更准确的脉络应该是:
小规模 latent dynamics
-> 面向控制的 model-based RL
-> 隐式 value/policy dynamics
-> Transformer / diffusion 视频世界模型
-> JEPA 式非生成表征预测
-> foundation world model
-> robot world model / world action model
下面先按时间线给一张速览表,再展开每个阶段。
| 阶段 | 代表论文 / 系统 | 核心问题 |
|---|---|---|
| 2018 | World Models | 能不能在模型“梦境”中训练 agent |
| 2019-2023 | PlaNet, Dreamer V1/V2/V3 | 从像素学 latent dynamics,并在想象 rollout 里学 policy |
| 2020-2024 | MuZero, EfficientZero, TD-MPC2 | 不必重建像素,只预测 reward/value/policy 或控制相关状态 |
| 2023-2024 | IRIS, STORM, DIAMOND | Transformer / diffusion 进入 world model |
| 2023-2025 | I-JEPA, V-JEPA, V-JEPA 2 | 不预测像素,预测语义/物理表征 |
| 2024-2025 | Genie, UniSim, Cosmos, Marble | 世界模型变成可交互/可生成/可产品化的基础模型 |
| 2025 | Robotic World Model, RWM-U | 机器人控制里解决 long-horizon drift 与不确定性 |
| 2025-2026 | Motus, DreamDojo, DreamZero | 从 world model 走向 world action model,同步建模视频和动作 |
4.1 Ha & Schmidhuber:在梦里训练 agent
2018 年的 World Models 是这个方向最有名的起点之一。
它把 agent 拆成三块:
V: Vision model
把像素压成 latent z
M: Memory / dynamics model
用 RNN 在 latent 空间里预测未来
C: Controller
根据 latent 和 hidden state 输出 action
核心想法很漂亮:先用真实环境数据训练 V 和 M,然后冻结它们,让 controller 在模型生成的“梦境”里训练。最后把 controller 拿到真实环境中执行。
这篇论文的意义不是性能有多强,而是它清楚展示了一个范式:
先学习世界,再学习行动。
4.2 PlaNet 与 Dreamer:latent dynamics 成为主线
DeepMind 的 PlaNet 和 Dreamer 系列把这个思想工程化。
PlaNet 用 Recurrent State-Space Model(RSSM)从像素学 latent dynamics,然后在 latent 空间里做 planning。Dreamer 进一步把 planning 改成 actor-critic:在 imagined rollout 里训练 policy。
Dreamer 的核心结构可以理解成:
真实经验 -> encoder/RSSM -> latent rollout -> reward/value/continue prediction
|
v
actor-critic
它的关键不是重建漂亮画面,而是让 latent space 对控制有用。Dreamer V2 用离散 latent 在 Atari 上取得强结果,Dreamer V3 强调“一套超参数跨大量任务”,成为 model-based RL 里最重要的基线之一。
4.3 MuZero:不重建世界,只预测对决策有用的量
MuZero 是另一条路线。
它不要求模型重建像素,也不要求 latent state 有人能解释。它只要求模型在搜索展开时预测三件事:
reward
value
policy prior
只要这三个头对,latent 长什么样都可以。
这给 world model 一个很重要的启发:对 agent 来说,“真实地还原世界”不一定是最优目标。更高效的目标可能是“预测和决策有关的未来”。
4.4 Transformer 与 diffusion:视频模型进入 world model
IRIS、STORM、DIAMOND 等工作把 Transformer、VQ tokenizer、diffusion 带进 world model。
IRIS 把 Atari 图像离散成 token,然后用 GPT 风格的 Transformer 做 next-token prediction。DIAMOND 则用扩散模型做像素级 world model,在第一人称游戏环境里生成可玩的未来画面。
从这里开始,world model 和视频生成模型越来越接近。
4.5 JEPA:不要预测像素,预测表征
Yann LeCun 长期推动 JEPA(Joint-Embedding Predictive Architecture)路线。
JEPA 的直觉是:像素空间里有太多无关细节。光照、纹理、阴影、噪声、背景变化,很多东西对“理解物理”和“做决策”没有帮助。如果模型花大量容量去生成这些细节,反而会浪费学习能力。
所以 JEPA 不预测像素,而是在表征空间预测未来:
visible context -> predictor -> future representation
|
v
match encoder(future observation)
I-JEPA 从图像开始,V-JEPA 推到视频,V-JEPA 2 进一步强调物理理解、预测和机器人规划。Meta 对 V-JEPA 2 的定位很明确:它是通向 Advanced Machine Intelligence 的 world model 组件,而不是一个视频生成器。
这条路线和 Sora/Cosmos/Genie 的差异很根本:生成式路线问“下一帧长什么样”,JEPA 路线问“下一步世界状态怎么变”。
4.6 Genie / UniSim / Cosmos:world model 变成 foundation model
2024 之后,world model 的重心从“某个 RL 环境里的 dynamics model”快速转向“大规模可交互世界基础模型”。
Genie 是这一波的关键节点。Genie 1 从无标注 2D 平台游戏视频里学习 latent action,让静态图片变成可交互环境。Genie 2 进一步提出 large-scale foundation world model:给一张图,就能生成可被人类或 agent 操作的 3D 环境。它的意义不是游戏本身,而是把 world model 变成 agent 的训练场。
UniSim 则把互联网视频、机器人数据、游戏和导航数据统一到一个可控视频预测框架里。它说明了一个重要方向:不同来源的数据虽然 action space 不同,但都可以转成“当前观测 + 条件 -> 未来观测”的问题。
Cosmos 更像工业版答案。NVIDIA 把 world model 做成平台:Cosmos Predict 负责未来视频预测,Cosmos Transfer 负责风格/域迁移,Cosmos Reason 负责物理 AI 推理,再接 Isaac、Omniverse 和 GR00T。这里 world model 不再是单篇论文里的模块,而是机器人和自动驾驶数据工厂的一部分。
World Labs Marble 代表另一条 foundation world model:不是生成一段视频,而是生成持久、可导航、可编辑、可导出的 3D world。它补上的是视频模型最弱的空间一致性。
4.7 Robotic World Model / RWM-U:回到机器人控制的硬问题
大视频模型很吸引眼球,但机器人控制里还有一类更“硬”的 world model:state-based dynamics model。
Robotic World Model(RWM)关注的是如何把 learned simulator 真正用于机器人 policy optimization。它不追求生成漂亮视频,而是要解决两个老问题:
long-horizon rollout 不发散
policy 不利用模型误差
RWM 的核心在于多步自回归训练,让模型在训练阶段就面对自己的预测误差。RWM-U 进一步加入 ensemble uncertainty,用多个预测头估计 epistemic uncertainty。policy 在模型里训练时,对高不确定性区域加惩罚,避免跑进模型没见过、但奖励看起来很高的“幻想区域”。
这条线的重要性在于:它把 world model 从“生成未来”拉回到“能不能训练出真实可部署的 policy”。对 locomotion、manipulation 这类任务,可靠性比视觉效果更重要。
4.8 Motus / DreamDojo / DreamZero:从 world model 到 world action model
2025-2026 年最新的一批工作,已经不满足于只预测 state,而是开始把 video、action、language、policy 放进一个统一模型里。
Motus 提出 unified latent action world model,用一个框架同时做:
video generation
world modeling
inverse dynamics
action prediction
video-action joint prediction
它的关键是 latent action:先用可扩展的方式从异构视频中抽取动作表征,再让理解、视频生成和动作模块在 joint attention 中对齐。Motus 的意义在于把原来分裂的 VGM、IDM、WM、VLA 放到一个统一生成框架里。
DreamDojo 更偏 foundation robot world model。它用大规模第一视角人类视频预训练,通过 continuous latent actions 解决无动作标签的问题,再在目标机器人数据上 post-train。它强调 contact-rich、dexterous task 的可控模拟,并通过蒸馏把交互速度推到实时附近。
DreamZero 则把这个思想推到 policy 端。它提出 World Action Model(WAM):基于预训练 video diffusion backbone,同时预测未来世界状态和机器人动作。相比 VLA 只做 action regression,WAM 用视频作为 dense supervision,让模型学习物理运动和动作后果。DreamZero 的一个标志性结果是把 14B 自回归视频扩散模型优化到闭环控制频率,并在新任务、新环境和跨 embodiment 上显示出比传统 VLA 更强的泛化。
这批论文说明了一个新趋势:world model 不再只是 policy 旁边的 simulator,而是 policy 本身的一部分。
过去:policy 使用 world model
现在:world model 和 policy 联合建模
未来:agent 的“想象”和“行动”可能是同一个模型的不同推理模式
5. 今天的五条主流路线
参考公众号文章《世界模型有哪些团队值得去》的四路线划分,并结合学术界常用分类,我把今天的 world model 分成五条路线。
5.1 视频生成路线:预测“下一帧长什么样”
代表:Sora、Veo、Genie、Cosmos Predict、UniSim、DIAMOND。
这条路线把未来表示成视频帧。输入当前帧、文本、动作或历史视频,输出未来视频。
它的赌注是:物理规律可以从大规模视频数据中涌现出来。只要数据足够多、模型足够大,模型会自动学到物体持久性、遮挡关系、碰撞、流体、光照和运动模式。
优点很明显:数据规模最大,训练目标直观,生成结果可视化,容易给产品和投资人展示。
缺点也很明显:长时序会漂移,物理细节不稳定,低延迟控制困难。机器人抓取、接触、软体形变、力反馈这些问题,靠“看起来像”远远不够。
这条路线最适合做三类事:
- 生成训练数据。
- 做策略评估和反事实场景。
- 给 high-level planner 提供未来想象。
5.2 JEPA / latent prediction 路线:预测“世界状态怎么变”
代表:I-JEPA、V-JEPA、V-JEPA 2、LeCun 的 AMI 蓝图。
这条路线不追求生成漂亮图像,而是在 latent space 里学习世界的变化。它更像“理解模型”而不是“生成模型”。
优点是表征紧凑、训练目标更贴近语义和物理、推理可能更快。缺点是可视化不直观,很难像视频模型那样直接展示一段未来结果。
如果你关心基础研究、表征学习、物理理解、机器人规划,JEPA 是非常值得读的路线。
5.3 结构化 dynamics 路线:预测“物体和状态变量怎么变”
代表:Dreamer、TD-MPC2、Robotic World Model、state-based locomotion models、occupancy world models。
这条路线直接在状态空间建模。状态可以是机器人关节、本体感知、物体 keypoints、BEV occupancy、voxel grid 或图结构。
它的优点是控制友好、速度快、可以用于高频闭环。比如 locomotion 需要 50Hz 甚至更高频率,像素视频模型很难直接进控制环,state-based world model 更实用。
缺点是需要更强的状态设计和归纳偏置。它不如互联网视频路线 scalable,但在具体机器人和自动驾驶系统里可能更可靠。
5.4 3D 空间理解路线:生成“可持久存在的三维世界”
代表:World Labs Marble、3D Gaussian Splatting / NeRF 系列、空间智能方向。
这条路线关心的不是下一帧,而是一个可导航、可编辑、可导出的 3D 世界。公众号文章里把它概括为“从视频重建持久 3D 世界”,这个说法很准确。
它解决的是视频模型最不擅长的问题:空间一致性。一个物体绕一圈回来还在原处,房间结构不会突然变,光照和几何关系保持稳定。
这条路线对游戏、影视、VR/AR、数字孪生、机器人仿真都有意义。但它和机器人控制中的 world model 还差一步:摄像机移动不是机器人动作,渲染新视角也不等于模拟机器人和物体交互。
5.5 物理引擎路线:让 Newton 来当 world model
代表:MuJoCo、Isaac Sim / Isaac Lab、Genesis、Drake。
这条路线的世界模型不是神经网络,而是物理引擎。给定状态和动作,物理引擎直接算下一状态。
优点是物理正确性强,尤其适合刚体、碰撞、接触、locomotion。缺点是 asset、材料、接触参数、传感器噪声、现实世界多样性很难完全建好。
未来很可能不是“神经 world model 替代物理引擎”,而是两者耦合:
物理引擎提供可控、精确、可并行的底座
生成模型提供场景、物体、纹理、扰动和 domain randomization
world foundation model 提供仿真到真实的迁移和数据扩展
6. 工业界在押什么
从工业界看,world model 不只是一个研究方向,而是一种基础设施竞争。
6.1 NVIDIA Cosmos:物理 AI 的平台化路线
NVIDIA Cosmos 是目前最典型的工业平台路线。NVIDIA 把它定义为面向 physical AI 的 world foundation model 平台,包含 world generation、video data processing、evaluation 和 post-training 工具。
Cosmos 的关键不只是模型,而是生态:
Cosmos Predict -> 预测/生成未来视频世界
Cosmos Transfer -> 仿真到真实、风格迁移、多控制生成
Cosmos Reason -> 物理 AI 推理与高层理解
Omniverse/Isaac -> 仿真、数据生成、机器人训练
GR00T -> 人形机器人策略
这就是为什么公众号文章会把 Cosmos 放在“强烈推荐”的位置:它不只是一个模型,而是一个完整的工程平台。对算法工程师来说,平台化意味着你的贡献可以落到视频生成、多模态理解、物理仿真、CUDA 优化、机器人数据生成、自动驾驶评测等多个可见模块上。
6.2 Google DeepMind Genie:可交互世界作为 agent 训练场
Genie 系列的核心是 generative interactive environments。
Genie 1 从无标注互联网视频中学习可控环境,并通过 latent action model 让用户逐帧交互。Genie 2 进一步定位为 large-scale foundation world model,可以从单张 prompt image 生成可被人或 AI agent 操作的 3D 环境。
它的工业意义不只是“生成游戏画面”,而是给未来 general agents 提供训练与评估环境。
如果一个 world model 能生成无限多可交互环境,那么 agent 就可以在虚拟世界里训练、犯错、探索,再把能力迁移到真实世界。这是 DeepMind 长期关心的路线:游戏和虚拟环境不是终点,而是通向通用智能的训练场。
6.3 World Labs:空间智能与 3D 世界生成
World Labs 走的是空间智能路线。Marble 的目标是从文本、图像、视频或粗 3D layout 生成可探索、可编辑、可导出的 3D worlds。
它和视频生成路线的不同点在于:视频是一段时间序列,3D 世界是一个持久空间。对于游戏、影视、建筑、VR/AR、机器人仿真,持久空间比单段视频更有用。
公众号文章里说 World Labs 的竞争密度相对低,这个判断有道理。纯视频生成已经非常拥挤,但“生成可持久、可导航、可导出的 3D 世界”仍然是早期战场。
6.4 Meta FAIR / AMI:非生成式世界模型
Meta 的 V-JEPA 2 代表另一种工业研究路线:不把世界模型等同于视频生成,而是让模型学习物理世界的表征和预测。
这条路线短期内不如视频生成好展示,但基础研究味道更重。如果你关心自监督学习、视觉表征、物理常识、zero-shot robot planning,它可能比生成式路线更接近“理解世界”的本质问题。
6.5 自动驾驶公司:闭环评测和反事实仿真
Wayve、Tesla、Waymo、NVIDIA Drive、国内的理想/小鹏/华为/蔚来/上海 AI Lab/OpenDriveLab 等,都在不同程度上做 world model 或 scenario generation。
自动驾驶里的 world model 往往有几个特点:
- 多摄像头或 BEV 表示。
- action space 相对简单,主要是轨迹、转向、加速度。
- 重点是闭环评测、安全验证、corner case 生成。
- 可以和已有仿真器、地图、occupancy、planner 结合。
这也是为什么自动驾驶 world model 通常比机器人 world model 先成熟一步:数据更多,动作简单,物理接触更少。
6.6 机器人公司:world model 作为数据工厂
机器人领域的工业目标更直接:用 world model 生成数据、评估策略、训练 policy。
1X、Physical Intelligence、Figure、Agility、Skild、NVIDIA GR00T、国内的智元、银河通用、星动纪元、宇树、极佳视界、蚂蚁灵波等团队,都在不同角度探索这件事。
公众号文章特别强调“具身控制路线”,也就是:
world model + VLA + reinforcement learning
让机器人先在虚拟世界里学,再把能力迁移到真实工厂或家庭。这可能是 world model 最终商业价值最大的地方,但也是技术难度最高的地方。
7. 机器人为什么比自动驾驶更难
自动驾驶已经很难,但从 world model 角度看,机器人更难。
自动驾驶的动作空间相对低维。车主要控制方向盘、油门、刹车,本质上可以抽象成轨迹规划。机器人则可能有几十个关节,机械臂、夹爪、人形、四足的 embodiment 完全不同。
自动驾驶不希望发生接触。车要避免撞人、撞车、撞路障。机器人恰恰必须接触世界:抓杯子、推抽屉、拧瓶盖、折毛巾、开门、插线、端盘子。接触动力学、摩擦、软体形变、遮挡、力反馈,全是难点。
自动驾驶场景结构相对规范。道路、车道线、交通灯、车辆、行人都有较强规律。家庭和工厂里的机器人环境更开放,物体形状、材质、摆放方式和任务目标变化巨大。
还有控制频率问题。
Manipulation 任务有时可以低频规划,比如 1Hz 到几 Hz,模型可以先生成候选未来再选动作。Locomotion 则需要高频闭环,50Hz 甚至更高。此时视频 world model 太慢,必须用 state-based dynamics、policy distillation 或小模型。
因此机器人 world model 的最终形态很可能是分层的:
高层:视频/语言/3D world model,用来想象任务和规划子目标
中层:action-conditioned dynamics,用来评估动作序列
低层:快速 policy 或 MPC,用来闭环控制
底层:真实传感器、力反馈、触觉和安全控制
8. 从 world model 到 world action model
传统 world model 预测未来 state:
state + action -> future state
VLA 预测 action:
observation + language -> action
World Action Model(WAM)试图把两者统一起来:同一个模型既能预测未来世界,也能预测未来动作。
可以把相关模型放在一个表里:
| 模型类型 | 条件 | 输出 | 例子 |
|---|---|---|---|
| Video Generation Model | 当前/历史视频、文本 | 未来视频 | Sora、Veo、Cosmos Predict |
| World Model | 当前状态、动作 | 未来状态 | Dreamer、TD-MPC、action-conditioned video model |
| Inverse Dynamics Model | 当前状态、未来状态 | 动作 | UniPi 类 video-to-action |
| VLA / Policy | 图像、语言、本体状态 | 动作 | RT-2、OpenVLA、π0、GR00T |
| World Action Model | 视频、动作、语言联合条件 | 未来视频和未来动作 | DreamZero、Motus 类路线 |
统一建模的吸引力在于:视频和动作本来就是同一个物理过程的两个侧面。
如果我知道当前帧和动作,我可以预测下一帧;如果我知道当前帧和下一帧,我也可以反推动作;如果我知道任务目标和当前观测,我可以生成动作;如果我知道动作计划,我可以生成执行视频。
WAM 的目标是让一个模型支持这些模式:
forward dynamics: o_t, a_t -> o_{t+1}
inverse dynamics: o_t, o_{t+1} -> a_t
policy: o_t, language -> a_t
video planning: o_t, language -> o_{t+1:T}
joint imagination: o_t -> future video + future actions
它的难点也很明显:训练复杂、数据异构、动作空间不统一、视频生成和 action prediction 会互相干扰。短期看它比单纯 VLA 难很多;长期看,它可能是更自然的具身智能基座。
9. 数据策略:为什么 play data 比 expert demo 更重要
机器人学习过去偏爱 expert demonstration:成功、干净、轨迹顺滑、任务明确。
world model 反过来需要 play data:成功、失败、乱动、试探、碰撞、慢动作、快动作、不同风格的交互都要有。
原因很简单。policy 只需要知道“怎么做对”,world model 需要知道“做什么会发生什么”。失败轨迹对 policy 可能是噪声,对 world model 却是宝贵数据。
一个好的 world model 数据金字塔大致是:
Level 1: Web video / image / text
最大规模,最便宜,但没有动作标签
Level 2: Egocentric human video
第一视角人类行为,接近具身交互
Level 3: Simulation data
有状态、有动作、有可控扰动
Level 4: Task-agnostic robot play
机器人自由探索,覆盖动作分布
Level 5: Multi-robot trajectories
不同 embodiment 的动作和观测
Level 6: Target robot expert data
最干净、最贵,用于最后适配
这也解释了为什么 latent action 重要。互联网视频和人类视频没有机器人 action label,但相邻帧之间隐含了动作。模型如果能自监督抽取 latent action,就能把无标注视频变成可用于 world model 训练的数据。
10. 当前挑战
10.1 长时序一致性
视频 world model 最常见的问题是漂移。短视频看起来很好,rollout 久了以后物体身份、几何关系、接触状态都会变形。
表征空间预测、self-forcing、3D 表示、diffusion distillation 都在缓解这个问题,但还没有完全解决。
10.2 物理正确性
很多模型能生成“像真的”视频,但机器人需要“真的能用”的预测。杯子会不会滑、布料会不会缠住、夹爪有没有力、抽屉卡住了怎么办,这些不是视觉相似度能解决的。
未来 world model 必须引入力反馈、触觉、本体感知、接触状态和更多结构化物理信息。
10.3 数据规模与数据质量
一个反直觉现象是:学一个足够好的 dynamics model,可能比直接学 policy 更吃数据。
这不代表 world model 没价值,而是说明它更像基础设施。训练成本高,但一旦可复用,就能服务评估、生成、规划、迁移和多个下游任务。
10.4 评测标准
FVD、视频相似度、人类偏好都不足以评价 world model。真正重要的问题是:
- 在模型里表现好的 policy,真实世界是否也好?
- 模型能不能正确处理反事实动作?
- 长时间 rollout 是否保持物体和几何一致?
- 对没见过的动作,模型是否知道自己不确定?
- 生成数据训练出的 policy 能否部署真机?
world model 的评测最终必须和下游 agent performance 绑定。
10.5 计算成本
大规模视频 world model 训练和推理都很贵。工业界可以堆集群,学术界很难复现。因此小模型、蒸馏、latent prediction、state-based dynamics、开源平台会非常重要。
10.6 安全探索
如果 world model 用于 online learning,policy 仍然需要探索。真实机器人探索可能撞坏自己、伤人或破坏环境。uncertainty-aware policy、safe RL、human-in-the-loop 将是长期问题。
一个总结
world model 的核心不是视频生成,也不是 3D 生成,更不是某个新名字。
它真正关心的是:
智能体能否在行动之前,预测行动的后果?
学术界从 model-based RL、Dreamer、MuZero、JEPA,一路走到 Genie、RWM、DreamDojo、DreamZero 和 Motus,是在寻找一种能服务决策的内部环境。工业界从 Cosmos、Genie、World Labs、自动驾驶仿真、机器人数据生成切入,是在寻找一种能规模化训练 physical AI 的基础设施。
短期看,world model 会先在数据生成、闭环评测、自动驾驶仿真、机器人 policy training 中落地。长期看,它可能会成为 agent 的“想象空间”:一个智能体不接触真实世界,也能在内部世界里计划、试错、学习和修正自己。
从这个角度看,world model 不是让 AI 从“数字原住民”变成“物理世界参与者”的全部答案,但它很可能是最关键的一块拼图。
术语表
| 术语 | 全称 / 英文 | 简要解释 | 常见语境 |
|---|---|---|---|
| WM | World Model | 能预测未来状态的模型;狭义上通常指 action-conditioned dynamics model。 | RL、机器人、自动驾驶 |
| WFM | World Foundation Model | 面向物理世界的大规模基础模型,支持视频预测、可控生成、评估、数据生成等多个下游任务。 | Cosmos、Genie、Marble |
| WAM | World Action Model | 同时建模未来世界状态和未来动作的模型,把 simulator 与 policy 合并到统一框架。 | DreamZero、Motus |
| VGM | Video Generation Model | 输入文本、图像或历史视频,生成未来视频;不一定吃动作。 | Sora、Veo、Cosmos Predict |
| VLA | Vision-Language-Action Model | 输入视觉观测和语言指令,直接输出机器人动作。 | RT-2、OpenVLA、π0、GR00T |
| IDM | Inverse Dynamics Model | 根据当前状态和未来状态反推动作。 | video-to-action、UniPi |
| Dynamics Model | 动力学模型 | 根据当前状态和动作预测下一状态,是狭义 world model 的核心。 | MBRL、机器人控制 |
| Forward Model | 前向模型 | 与 dynamics model 基本同义,强调从 action 推未来结果。 | 控制、规划 |
| Policy | 策略 | 从状态或观测映射到动作的模型。 | RL、VLA、机器人 |
| Model-Based RL | MBRL | 先学习环境模型,再利用模型做规划或策略训练。 | Dreamer、PlaNet、TD-MPC |
| Model-Free RL | MFRL | 不显式学习环境模型,直接从交互数据学习 policy 或 value。 | PPO、SAC、DQN |
| MPC | Model Predictive Control | 用模型向前滚动多个候选动作序列,选回报最高的一段执行。 | PlaNet、TD-MPC、机器人控制 |
| RSSM | Recurrent State-Space Model | Dreamer/PlaNet 的核心结构,把 deterministic hidden state 和 stochastic latent state 结合起来。 | latent dynamics |
| Latent State | 潜在状态 | 模型内部压缩后的状态表示,不一定能被人直接解释。 | Dreamer、MuZero、JEPA |
| Latent Action | 潜在动作 | 从无动作标签视频中自监督学出来的动作表示,用来解释帧间变化。 | Genie、DreamDojo、Motus |
| JEPA | Joint-Embedding Predictive Architecture | 不重建像素,而是在表征空间预测未来或被遮挡部分。 | I-JEPA、V-JEPA 2 |
| Tokenization | 标记化 | 把图像、视频或动作离散/压缩成 token,方便 Transformer 建模。 | IRIS、视频生成 |
| VQ-VAE | Vector Quantized VAE | 把连续图像特征离散成 codebook token 的自编码器。 | IRIS、VideoGPT |
| Diffusion | 扩散模型 | 从噪声逐步去噪生成样本,适合连续图像、视频和动作分布。 | Sora、DIAMOND、Cosmos |
| AR | Autoregressive | 自回归建模,用过去预测下一步,再把预测结果继续作为上下文。 | 视频 rollout、语言模型 |
| AR + Diffusion | 自回归扩散 | 时间上逐步 rollout,每一步内部用 diffusion 生成连续状态。 | Genie、IWS、Motus |
| Consistency Model | 一致性模型 | 用较少去噪步数实现快速生成或预测,常用于加速 diffusion。 | Interactive World Simulator |
| Self-Forcing | 自强迫训练 | 训练时让模型用自己的预测继续 rollout,多步都和真实状态算 loss,缓解长程漂移。 | RWM |
| Uncertainty Ensemble | 集成不确定性 | 用多个预测头或多个模型估计分歧,分歧大表示模型不可靠。 | RWM-U、安全 RL |
| Epistemic Uncertainty | 认知不确定性 | 由于数据不足或分布外输入导致的不确定性。 | uncertainty-aware policy |
| Hallucination | 幻觉 | world model 在没数据或不可靠区域生成看似合理但物理错误的预测。 | 模型 rollout、policy training |
| Model Exploitation | 模型漏洞利用 | policy 在 learned model 中找到高奖励但真实世界无效的动作。 | MBRL 风险 |
| Rollout | 展开 / 滚动预测 | 从当前状态开始,连续预测多步未来。 | planning、evaluation |
| Long-Horizon Drift | 长程漂移 | 多步预测后物体身份、空间关系或物理状态逐渐失真。 | 视频 WM |
| Counterfactual | 反事实 | 比较不同动作会导致什么不同未来。 | planning、安全评估 |
| Closed-Loop Evaluation | 闭环评测 | policy 的动作会影响下一状态,模型持续反馈,而不是只做离线单步预测。 | 自动驾驶、机器人 |
| Open-Loop Evaluation | 开环评测 | 固定真实历史轨迹,只评估模型预测是否接近数据,不让 policy 影响环境。 | 视频预测、离线评测 |
| FVD | Fréchet Video Distance | 常用视频生成质量指标,但不足以评价物理正确性和控制可用性。 | 视频模型评测 |
| Sim-to-Real | 仿真到真实 | 在仿真或模型中训练,再迁移到真实机器人或真实道路。 | Isaac、Genesis、机器人 |
| Domain Randomization | 域随机化 | 随机改变纹理、光照、物体、动力学参数等,让策略更容易迁移真实世界。 | sim-to-real |
| Play Data | 探索数据 | 包含成功、失败、随机探索、多样动作的数据,比干净专家轨迹更适合训练 world model。 | 机器人数据 |
| Expert Demo | 专家示范 | 成功、干净、任务导向的数据,更适合 imitation learning。 | VLA、BC |
| Egocentric Video | 第一视角视频 | 从人类头戴或胸前视角采集的视频,规模大且接近具身交互。 | Ego4D、DreamDojo |
| Embodiment | 机体形态 | 智能体的身体结构和动作空间,如人形、四足、机械臂、夹爪。 | 机器人泛化 |
| Proprioception | 本体感知 | 机器人自身关节角、速度、力矩、IMU 等内部状态。 | 机器人控制 |
| Haptics / Tactile | 触觉 / 力反馈 | 接触力、压力、滑动等触觉信息,是当前视觉 world model 的短板。 | manipulation |
| Occupancy | 占据表示 | 用 voxel 或 BEV 网格表示空间中哪些位置被物体占据。 | 自动驾驶、OccWorld |
| BEV | Bird’s-Eye View | 鸟瞰视角表示,自动驾驶中常用于融合多摄像头和地图信息。 | DriveDreamer、planner |
| 3DGS | 3D Gaussian Splatting | 用三维高斯表示场景并快速渲染新视角。 | 3D world model |
| NeRF | Neural Radiance Field | 用神经网络表示三维场景和视角相关颜色/密度。 | 3D 重建 |
| Digital Twin | 数字孪生 | 真实场景或系统的可仿真数字副本。 | 工业仿真、自动驾驶 |
References
经典与 model-based RL
- Ha, D. and Schmidhuber, J. World Models. 2018. https://worldmodels.github.io
- Hafner, D. et al. Learning Latent Dynamics for Planning from Pixels (PlaNet). ICML 2019.
- Hafner, D. et al. Dream to Control: Learning Behaviors by Latent Imagination. ICLR 2020.
- Hafner, D. et al. Mastering Atari with Discrete World Models. ICLR 2021.
- Hafner, D. et al. Mastering Diverse Domains through World Models (Dreamer V3).
- Schrittwieser, J. et al. Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero). Nature 2020.
- Hansen, N. et al. TD-MPC2: Scalable, Robust World Models for Continuous Control.
视频、交互世界与 world foundation models
- Google DeepMind. Genie: Generative Interactive Environments. 2024. https://deepmind.google/research/publications/genie-generative-interactive-environments/
- Google DeepMind. Genie 2: A large-scale foundation world model. 2024. https://deepmind.google/blog/genie-2-a-large-scale-foundation-world-model/
- Google DeepMind. Genie 3: A new frontier for world models. 2025. https://deepmind.google/discover/blog/genie-3-a-new-frontier-for-world-models/
- NVIDIA. Cosmos World Foundation Models. 2025. https://www.nvidia.com/en-us/ai/cosmos/
- NVIDIA Blog. NVIDIA Makes Cosmos World Foundation Models Openly Available to Physical AI Developer Community. 2025. https://blogs.nvidia.com/blog/cosmos-world-foundation-models/
- World Labs. Marble: A Multimodal World Model. 2025. https://www.worldlabs.ai/blog/marble-world-model
- Yang, M. et al. Learning Interactive Real-World Simulators (UniSim). ICLR 2024.
- Alonso, E. et al. Diffusion for World Modeling (DIAMOND). NeurIPS 2024.
JEPA 与表征预测
- LeCun, Y. A Path Towards Autonomous Machine Intelligence. 2022.
- Assran, M. et al. Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture (I-JEPA). CVPR 2023.
- Bardes, A. et al. V-JEPA: Revisiting Feature Prediction for Learning Visual Representations from Video.
- Meta AI. Introducing the V-JEPA 2 world model and new benchmarks for physical reasoning. 2025. https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
机器人与具身智能
- Wu, P. et al. DayDreamer: World Models for Physical Robot Learning. CoRL 2022.
- Du, Y. et al. Learning Universal Policies via Text-Guided Video Generation (UniPi).
- Li, C. et al. Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics. https://sites.google.com/view/roboticworldmodel/home
- Li, C. et al. Uncertainty-Aware Robotic World Model. https://sites.google.com/view/uncertainty-aware-rwm/home
- Wang, Y. et al. Learning Interactive Real-World Simulators for Robot Policy Training and Evaluation. https://www.yixuanwang.me/interactive_world_sim/
- Motus Team. Motus: A Unified World Action Model for Robotic Manipulation. 2026. https://motus-robotics.github.io/motus
- Gao, S. et al. DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos. 2026. https://arxiv.org/abs/2602.06949
- Gao, S. et al. DreamZero: World Action Models are Zero-Shot Policies. 2026. https://arxiv.org/abs/2602.15922
- 1X Technologies. 1X World Model. 2025.
- NVIDIA. Isaac GR00T / GR00T-Dreams. https://github.com/NVIDIA/Isaac-GR00T
自动驾驶与 3D 世界
- Wayve. GAIA-1 / GAIA-2.
- DriveDreamer / MagicDrive / OccWorld / Vista 系列工作。
- World Labs Docs. Marble Models. https://docs.worldlabs.ai/marble/models
延伸阅读
- World-Model-Papers: https://github.com/Timothyxxx/World-Model-Papers
- Awesome Video Diffusion: https://github.com/showlab/Awesome-Video-Diffusion
- Embodied AI Reading List: https://yenchenlin.me/embodied-reading-list