「世界模型,是所有人都会抵达的终点。这条路我现在已经 all-in 了,你跟不跟?」谢赛宁曾在前段时间接受采访时说道。
毫无疑问,「世界模型」是今年最受瞩目的方向之一。无论你是做视频生成还是具身智能,投资人都不免问一句,「你们在世界模型上有什么规划?」
然而,一个尴尬的现状是:关于什么是世界模型,大家还没有达成共识。
李飞飞与 World Labs 团队在近期发表的文章中对这一混乱进行了系统的澄清,为整个领域提供了一个统一的语言和思考框架。

文章链接:https://x.com/drfeifei/status/2062247238143996275
这篇文章在社交媒体上引发了广泛的思考,非常值得一读。

以下是我们根据原文整理的内容。
问题的根源:概念混乱
文章首先指出,当前业界在谈论「世界模型」时,存在严重的概念混淆。计算机视觉、机器人学、强化学习和生成 AI 等多个领域都声称在开发世界模型,但各自指代的内容却截然不同。一个能生成视觉效果逼真但物理上不可能的火焰的视频模型、一个即兴创作可玩游戏的语言模型、以及一个能准确模拟燃烧过程的物理引擎 —— 这三样东西如今都被冠以「世界模型」的名号。
李飞飞认为,这个问题的深层原因是对「世界」本身定义的模糊。正如古希腊哲学家对世界的本质众说纷纭一样,现代 AI 也继承了这一问题,且恰好发生在这个领域最需要精确定义的时刻。
理论框架:强化学习中的循环
为了厘清概念,文章引用了强化学习领域的经典理论 —— 部分可观测马尔可夫决策过程(POMDP)。这一框架描述了智能体与世界的互动循环:
智能体采取行动 → 行动改变世界状态 → 产生观察信息 → 驱动下一步行动
在这个过程中,「状态」指的是世界在某一时刻的完整描述 —— 包括所有物体、位置、速度和属性。然而,智能体永远无法直接感知状态本身,只能通过观察(图像、传感器数据、视频帧等)获得对现实的片面认知。
李飞飞认为,当今被称为「世界模型」的各类系统,本质上都是这个循环的不同投影。它们各自输出循环中的不同部分。
三种功能性的世界模型
基于这一框架,作者提出了三种不同功能的世界模型:
渲染器(Renderer)
渲染器的职责是输出观察信息,通常以人眼能够理解的像素形式呈现。衡量渲染器好坏的主要标准是视觉保真度 —— 画面有多逼真。
文中举例包括文本生成视频模型(如无人机航拍视效)和交互式系统(如 Google 的 Genie 3 或 World Labs 的 RTFM),这些系统能根据用户输入实时生成画面。其特点是对三维结构没有显式理解 —— 它呈现的是观看者会看到的样子,而非实际情况。这就是为什么一个城市在俯视图上看起来完美无缺,但从城市内部驾驶却会发现建筑物「崩坏」。
模拟器(Simulator)
模拟器输出的是世界状态本身 —— 在几何、物理或动力学上都忠实于现实的表示。相比渲染器只需视觉说服力,模拟器需要满足更严苛的结构契约:几何关系必须经得起推敲,物理过程必须遵守牛顿定律,动态行为必须符合物理规律。
模拟器面向两类使用者:一是建筑师、设计师、电影制作人、游戏开发者等专业人士,他们需要超越视觉真实感的准确性;二是强化学习智能体、机器人控制器、自动驾驶系统等计算机程序,它们将模拟器用作大规模训练场景,在虚拟环境中测试现实中危险、昂贵或不可能实施的场景。
规划器(Planner)
规划器输出的是动作 —— 智能体在给定观察和目标的情况下应该采取的下一步行动。某种意义上,规划器是渲染器的逆过程:渲染器将行动作为输入转换为观察,规划器则以观察为输入产生行动,由此闭合感知 – 行动循环。
文中提到的视觉语言行动模型(VLA)、基于模型的系统和新兴的世界行动模型,都是规划器的实现形式 —— 力图让机器人在非结构化环境中做出正确决策。
三者的隐秘关联
虽然这三类可以单独界定,但它们共享同一个根基:对世界如何运作的深层认识 —— 几何、物理、动力学。理论上,一个真正理解世界的模型应该能够完成所有三项任务:从多个角度渲染一个杯子的样子,模拟杯子被推动时会发生什么,以及规划一只手该如何去拿起这个杯子。
正如文章所指出的,当前最有趣的研究已经开始有意识地模糊这三个类别之间的界限。

为何模拟器是关键
尽管模拟器的学术关注度最低,但在功能上最为关键,文章特意用整个章节来强调这一点。
渲染器因其商业成熟度而获得最多公众关注。许多文生图、文生视频产品正在消费者和企业市场中快速扩张。然而,渲染器优化的是视觉可信度而非物理准确性,这个天花板很重要:它们的输出足够美观,却不足以用于建筑设计或机器人训练。
规划器最具吸引力且最不成熟,与机器人学领域紧密相关。虽然过去两年出现了在视频中看起来令人印象深刻的机器人演示,但需要坦诚的是,这些演示几乎都局限于高度受限的实验室环境,物体种类有限、任务时间短。没有任何系统被验证能应对真实部署所需的复杂性、多样性和持续性。演示视频与真正能在厨房、仓库或手术室可靠工作的机器人之间仍存在巨大鸿沟。
模拟器则是连接两者的桥梁。如果说语言是对世界的抽象,像素是对世界的投影,那么几何、物理和动力学就是世界本身。模拟器必须在这个层面上运作 —— 提供那个结构骨干,从中既可以为人类消费衍生出视觉表现(供渲染器使用),也可以衍生出动作后果(供规划器使用)。
掌握模拟的模型可以将其理解投影为像素供人类消费,也可以投影为动作预测供具身智能体使用。而仅掌握渲染或规划的模型,两者都做不了。
从商业角度看,应用空间巨大。NVIDIA 的 Omniverse 估计在工厂、仓库、供应链和数字孪生领域就有超过 1 万亿美元的可寻址市场。机器人训练、自动驾驶测试、建筑可视化、工程设计和药物发现都依赖某种形式的模拟。
领域内最困难的未解问题也都集中在这里。具有显式几何、材质属性和物理标注的三维数据比训练渲染器的互联网视频少好几个数量级。仿真到现实的 gap 仍然存在。生成式模拟器还引入了新的风险:AI 生成的几何在视觉上看似正确,但可能含有自相交或错误的尺度,从而产生无意义的物理。多物理场模拟(刚体、可变形物体、流体、布料交互)的规模化仍然比单域模拟贵得多。
边界的融合趋势
当前领域最重要的模式是这三个类别开始彼此融合。这背后的共同洞察是:渲染、模拟和作用于世界所需的知识在很大程度上是相同的。
文章提到,一些机器人实验室的最新工作表明,经过预训练的视频渲染器可以作为联合世界和动作预测的骨干,这为渲染器和规划器之间搭建了桥梁。World Labs 的 Marble 已经从单个模型同时输出高斯散射和碰撞网格,模糊了渲染器和模拟器之间的边界。系统在各个层级都从被动输出演进到交互系统:渲染器变成了动作条件化的,模拟器生成的世界更加可控和可编辑,规划器从被动反应升级到主动推理。

统一世界模型的愿景
逻辑上的终点是一个统一的世界模型 —— 一个基础模型能够渲染照片级真实感的视图,产生物理精确的结构,规划行动序列,并根据下游消费者的需求在输出模态间灵活切换。
然而仍有诸多艰巨挑战需要面对。数据环境不均衡 —— 渲染器拥有充足的互联网视频,而模拟器和规划器面临 3D 资产和机器人演示的严重短缺。优化视觉美感可能牺牲机器人或高保真模拟所需的精确性。在单一架构内协调这些张力是当前世界模型研究的定义性开放问题,也正是 World Labs 在继续发展 Marble 时致力于解决的课题。
明确的方向
自上世纪八十年代末以来,业界一直在押注一个假设:足够丰富的世界模型是任何智能体观察世界、构建世界和作用于世界所需的全部。现在,这个「大赌注」正在驱动整个新一代的研究。
赋予这个「大赌注」分量的是已经在进行中的收敛:三条线索 —— 每一条都在独立推动和塑造着数十亿美元的产业 —— 最初是独立的研究项目,现在开始表现得像是一个整体。当它们的边界开始坍塌时,将重塑某种更宏大的东西:机器智能与其所栖身的物理世界之间的关系 —— 空间智能的长期演进。
语言赋予了机器讨论世界的能力。而世界模型,则是机器最终来理解、想象、推理和与世界互动的方式。
本文来自转载机器之心 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

微信扫一扫

