当Fei-Fei Li宣布World Labs又拿到10亿美元融资时,科技圈的反应从"震惊"变成了"麻木"。

这已经是2026年第几家估值破10亿美元的世界模型公司了?掰手指头数数:World Labs、AMI Labs、General Intuition、Wayve、Physical Intelligence、Decart……融资总额轻松突破50亿美元。

但真正让我后背发凉的不是数字。

是Jim Fan(NVIDIA机器人领域首席科学家)说的那句话:"Unfortunately, the most hyped use case of World Models right now is AI video slop. I bet with full confidence that 2026 will mark the first year that Large World Models lay real foundations for robotics."

AI配图

翻译成人话:现在这帮公司都在用世界模型的概念画大饼,真正在做实事的没几个。但2026年不一样了,真正能落地的世界模型要来了。

而问题是——你甚至不知道什么是世界模型


一个让你怀疑人生的比喻

先做个思想实验。

想象你正在看一场曼联比赛。你看到的是什么?

一个球迷举起自制的横幅。整座球场开始唱起歌来。有人抱着孩子跳起来,一对老夫妻静静坐着,仿佛这是他们最后一次现场看球。

现在,闭上眼睛。想象这一切需要多少计算量?

传统游戏引擎会告诉你:这至少是个O(N)甚至O(N²)的问题。每个人、每面旗子、每张椅子、每个皮球,都必须被单独计算。它们之间的互动,更得重新算一遍。

但对你来说呢?想象这一切几乎不费吹灰之力。你不需要"计算"就能在脑子里重现整座球场的氛围。你甚至能在脑子里预演:如果裁判刚才判罚了点球,球迷会是什么反应?如果C罗现在进场,全场会怎样躁动?

这就是人类大脑每天在做的事——我们在脑子里运行着无数个"世界模型"。

一个棒球手面对150公里/小时的来球时,必须在球到达本垒板之前就完成挥棒决策。不是因为他的反应比光速还快,而是因为他大脑里的"世界模型"已经预测出了球的轨迹。

Donald Hoffman(加州大学认知科学教授)有个更激进的想法:我们所有人每天都戴着一副"现实头盔"。真实世界的信息量太大了,大脑处理不过来,所以我们简化了它。我们活在一个"持久的白日梦"里,而这个梦足够好用,让我们活到了今天。

听起来很玄乎?但如果这玩意儿能让机器也学会呢?


1990年的一篇论文,预言了2026年的风口

故事要从1990年说起。

那年,一个叫Jürgen Schmidhuber的年轻研究员在慕尼黑工业大学发表了论文《Making the World Differentiable》。论文提出了一个在当时看来近乎疯狂的设想:能不能让智能体在一个完全虚拟的世界里学习,然后把学到的东西直接迁移到现实?

不用接触真实环境。不用承担失败后果。只需要做梦。

同年,Richard Sutton(后来写了那篇著名的《Bitter Lesson》)提出了类似的架构Dyna。他的核心观点是:学习、规划、反应不该是三个割裂的系统,而应该统一在一个架构里。这意味着,理论上你可以构建一个世界模型,在里面疯狂练习,然后直接去现实里碾压。

AI配图

这两篇论文在当时看来就是天方夜谭。1990年的全球计算能力大约是10-100 gigaFLOPS。而2024年一年卖出的计算设备就达到了10^22 FLOPS(zettaFLOPS级别)。差了20个数量级。

但技术会进步,最疯狂的梦想不会死。

2018年,Google Brain的David Ha和Schmidhuber联手发布了那篇里程碑式的论文《World Models》。他们用三个组件构建了一个系统:

  • 视觉模型(V)把像素压缩成紧凑的表示
  • 记忆模型(M)用循环神经网络预测下一帧
  • 控制器(C)根据V和M的输出决定行动

他们让AI在赛车游戏和射击游戏里"做梦",然后把学到的策略直接应用到真实游戏里。

结果:AI在梦里学会的技能,在现实里也能用。

这就好像你梦见自己学会了弹钢琴,醒来之后发现你真的能弹——虽然梦里的钢琴是虚拟的,但指法是真实的。


为什么LLM可能走不通这条路?

在深入世界模型之前,必须先回答一个关键问题:

既然LLM已经这么强了,为什么我们还需要世界模型?

AI配图

先做个实验。

请用语言描述"拍手"这个动作。要求精确到皮秒:你的手在空间中处于什么位置?相对于彼此的位置是怎样的?接触点在哪里?声音是怎样的?你的手臂如何弯曲以配合拍手?衣袖如何响应?旁边的人注意到你拍手了吗?他们有什么反应?

你描述得出来吗?

你当然描述不出来。语言是对现实的有损压缩。你能用语言告诉别人"拍手是什么感觉",但你永远无法仅凭语言让一个从未拍手过的人理解拍手的全部细节。

Herman Hesse在《玻璃珠游戏》里写了一个叫Castalia的理想国,那里的知识分子沉迷于纯粹的思想游戏。他们能把人类所有知识压缩成一套符号系统,用抽象的逻辑推演一切。但小说主角Knecht最终选择离开这座"完美"的象牙塔,去当一个普通的家庭教师。

他选择了混乱、具体、不可预测的真实世界,而不是完美但失真的符号系统。

LLM就是Castalia的居民。它们是极其优雅的符号操作者,能讨论物理、创作诗歌、编写代码。但它们从未真正"感受"过重力。一个三岁小孩对重力的理解,可能比所有LLM加起来都深——因为小孩摔过无数次,而LLM只是"读过"关于重力的文字。

LLM能预测下一个token,但它预测的是柏拉图洞穴墙壁上的影子。它永远无法触及影子背后的真实。

而世界模型想做的,是直接构建那个能产生影子的"世界"本身。


世界模型:公式很简单,但威力无穷

世界模型的定义其实很简洁:

给定当前状态和动作,预测下一状态。

就这么一句话。但和LLM的"预测下一个词"有本质区别。

LLM的逻辑是:P(下一个词 | 之前的词)

世界模型的逻辑是:P(下一状态 | 当前状态 + 动作)

那个动作a_t,就是魔法所在。

想象你决定往左跨一步绕过水坑。你的大脑瞬间处理了眼前的画面(人行道、水坑、周围的人、驶来的公交车),预测了各种可能性(公交车会经过、水坑不会移动、后面的人会继续走),然后做出了决策。

外面的人看不到你大脑里的任何计算过程。他们只看到一个结果:你往左跨了一步

但就是这一步,包含了海量的信息:视觉处理、因果推理、风险评估、后果预测。世界模型要学的,就是这种"输入-动作-输出"的映射。

动作是终极压缩形式。 一个人一秒钟内做出的动作,是他一辈子观察世界、积累经验的结晶。机器如果能学会这种压缩方式,就能用极低的计算成本模拟极其复杂的场景。

这就是为什么世界模型能"计算不可计算之物"。传统模拟必须为每个球迷、每面旗子写规则,计算量随人数指数级增长。但世界模型学习的是"人类在这种情况下通常会怎么做",然后用一个神经网络前向传播就搞定一切。

整个球场的复杂度,被压缩成一个固定的计算成本。


2026年:路线之争

现在问题来了:世界模型到底应该怎么建?

目前有两大路线:

路线一:生成式世界模型(Generative World Models)

这是General Intuition、Wayve、Google DeepMind等公司押注的方向。

核心思想是:直接预测像素。你给我一帧画面和一个动作,我给你生成下一帧画面。生成的视频是可直接观看的,人类可以判断"这个合理吗"。

DIAMOND(2024年)用87小时的《反恐精英》游戏录像,训练出了一个完全可玩的神经游戏引擎。你可以在里面实际操作,AI会实时响应你的每个动作。

Wayve用同样的思路做自动驾驶。他们的GAIA-2能生成复杂的驾驶场景,包括危险的极端情况(突然加塞、紧急刹车、行人冲出)——这些情况在现实里可能几百万公里都遇不到一次,但在模拟里可以无限生成。

优点直观、可解释、能生成训练数据给人类用、细节丰富
缺点计算成本高、可能浪费资源在无关细节上

路线二:潜在世界模型(Latent World Models)

这是Yann LeCun和AMI Labs选择的路线。

核心思想是:别预测像素,预测抽象表示。既然未来本来就不可预测,为什么要在像素这种细枝末节上浪费算力?直接在学习到的潜在空间里做预测就好。

LeCun管这叫JEPA(Joint Embedding Predictive Architecture)。他的原话是:"世界是不可预测的。如果你试图构建一个预测未来每个细节的生成模型,它会失败。JEPA不是生成式AI。"

这就好比你要预测"明天的股市走势",你不需要预测每分每秒的波动,只需要知道"大概率会涨/跌"这个抽象结论。

优点计算高效、专注于本质因果结构、不被无关细节干扰
缺点难以评估(你看不到预测结果,只能看指标)、难以人类参与迭代、容易陷入表示坍缩


路线之争的背后:一个更大的赌局

这两种路线的分歧,本质上反映了两种不同的AI哲学。

生成式路线相信:细节就是信息,模拟得越真实,学到的越多。DIAMOND的实验证明,增加生成细节确实让智能体变得更聪明。

潜在路线相信:细节是噪声,预测未来不需要知道每个像素长什么样。LeCun认为,试图预测每个像素不仅昂贵,而且适得其反——模型会浪费容量在本质上不可预测的视觉细节上,而不是学习真正重要的因果结构。

但更有意思的是,这个问题可能根本没有"正确答案"。

Moonlake(由Chris Manning、Ian Goodfellow等人创立)给出了一个混合方案:先用漂亮的生成式世界吸引人类玩家,收集动作标注数据,然后再把这些数据压缩到潜在空间做学习。这就好比先用高清相机拍下世界,再用算法提炼出本质规律。

General Intuition的判断是:两条路最终会收敛。

他们现在专注于生成式路线,因为这是目前更实用的方法。但他们也在密切关注潜在路线的进展。Pim De Witte(General Intuition联合创始人)说过一句话很有意思:

"理解和行动不是两种技能,它们是同一技能的两个面。"


机器人先卷起来

说了这么多世界模型的理论,但真正让我觉得"这事儿成了"的,是机器人领域的进展。

**Physical Intelligence(简称π)**是这条赛道上最生猛的公司。

他们的策略看起来很"偷懒":不从头训练世界模型,而是直接拿现成的LLM/VLM,在后面加一个"动作头",让模型学会输出机器人能理解的指令。这被叫做VLA(Vision-Language-Action Model)。

Evan Beard(Standard Bots)对此有一个很辛辣的评价:

"我们用LLM架构不是因为它最适合机器人,而是因为我们作为人类已经在LLM基础设施上投入了数万亿美元。这台机器太诱人了,很难不用。"

这让我想起了W. Brian Arthur关于"技术锁定"的研究:有时候一项技术获胜,不是因为它最优秀,而是因为它最先被采用,然后形成了正向循环——更多用户→更多投资→更好的产品→更多用户。

Physical Intelligence似乎在试图复制这个路径。他们的π₀系列已经能完成叠衣服、收拾餐具、整理线缆、打包快递等任务。最新版本π₀.5甚至能泛化到从未见过的家庭环境。最新的π*0.6展示了从经验中学习的能力——机器人第一次尝试失败后,会根据记忆调整策略,第二次尝试成功。

但问题是:VLAs能走多远?

它们需要海量的真实机器人数据来训练,而且泛化能力存疑。一个在特定厨房训练过的机器人,换一个厨房可能就懵了。

而世界模型的支持者认为:如果能在无限丰富的模拟世界里训练,泛化问题自然就解决了。

这就是为什么世界模型和VLAs可能不是竞争对手,而是最终会融合的两种路径。


真正的战场:具身智能

让我们回到最开头的问题:为什么世界模型值得50亿美元?

因为它指向的是具身智能(Embodied AI)——能在物理世界里行动的智能。

LLM再强,也只能生成文字。它无法帮你把杯子放到桌子上,无法帮你开车,无法帮你组装家具。它能告诉你"如何组装宜家家具",但它自己连一个螺丝都拧不了。

而世界模型要解决的,正是这个问题。

comma.ai用世界模型训练驾驶策略,然后直接部署到真实车辆上。他们的方法完全在模拟器里训练,然后零样本迁移到现实世界。结果是:这个用世界模型训练的系统,表现超过了传统模仿学习和在常规模拟器里训练的系统。

Google DeepMind的SIMA 2更激进:它直接用Gemini(一个大型语言模型)作为主干,结合世界模型来理解3D游戏环境。它能理解高级目标、执行复杂多步骤指令、在未见过的环境里泛化。

目标很明确:在虚拟世界里训练,在现实世界里行动。

如果这能work,那就意味着:

  • 机器人可以在无限丰富的模拟环境里练到吐,然后直接去工厂上班
  • 自动驾驶可以在虚拟城市里经历所有极端情况,然后上路
  • 任何需要"动手"的智能任务,都可以用虚拟数据来训练

这就是为什么NVIDIA、OpenAI、Google、Meta都在往这个方向砸钱。


结语:你在梦里,还是在现实?

写到最后,我想起了《黑客帝国》里的那个经典选择。

红药丸:醒来,看到残酷的真相。
蓝药丸:继续活在美好的梦里。

但世界模型让这个寓言变得复杂了。

如果一个世界模型足够精确,精确到在里面训练智能体,然后迁移到现实——那这个模型算不算"真实"?

如果一个机器人通过观察人类行为学会了所有技能,它的"理解"和人类的"理解"有什么本质区别?

最让我后背发凉的是文中那个思想实验的结尾:

"举个例子……你如何确定你自己不是一个运行在世界模型里的智能体?"

"醒来吧,Neo。"

1990年,Schmidhuber和Sutton提出了这个世界模型的构想。他们等了近30年,才等来计算能力和数据量足以让这个想法成真。

2026年,我们正站在这条路的起点。

50亿美元的融资只是开始。真正的突破还没有到来。但当它到来时——当世界模型真正能"计算不可计算之物"时——我们可能需要重新思考"现实"这个词的含义。

也许,我们一直就活在一个世界里,只是现在终于有人开始学会模拟它了。


【MiniMax-M2.1锐评】:这篇文章把一个晦涩的技术概念讲成了"人类vs机器"的哲学故事,用足够多的比喻和对比让读者产生"这事儿跟我有关"的直觉,最后用一个黑客帝国梗收尾,留下的余韵够读者回味好几天。

参考链接:
https://x.com/packyM/status/2035330916139082228