当Fei-Fei Li宣布World Labs又拿到10亿美元融资时,科技圈的反应从"震惊"变成了"麻木"。
这已经是2026年第几家估值破10亿美元的世界模型公司了?掰手指头数数:World Labs、AMI Labs、General Intuition、Wayve、Physical Intelligence、Decart……融资总额轻松突破50亿美元。
但真正让我后背发凉的不是数字。
是Jim Fan(NVIDIA机器人领域首席科学家)说的那句话:"Unfortunately, the most hyped use case of World Models right now is AI video slop. I bet with full confidence that 2026 will mark the first year that Large World Models lay real foundations for robotics."
翻译成人话:现在这帮公司都在用世界模型的概念画大饼,真正在做实事的没几个。但2026年不一样了,真正能落地的世界模型要来了。
而问题是——你甚至不知道什么是世界模型。
一个让你怀疑人生的比喻
先做个思想实验。
想象你正在看一场曼联比赛。你看到的是什么?
一个球迷举起自制的横幅。整座球场开始唱起歌来。有人抱着孩子跳起来,一对老夫妻静静坐着,仿佛这是他们最后一次现场看球。
现在,闭上眼睛。想象这一切需要多少计算量?
传统游戏引擎会告诉你:这至少是个O(N)甚至O(N²)的问题。每个人、每面旗子、每张椅子、每个皮球,都必须被单独计算。它们之间的互动,更得重新算一遍。
但对你来说呢?想象这一切几乎不费吹灰之力。你不需要"计算"就能在脑子里重现整座球场的氛围。你甚至能在脑子里预演:如果裁判刚才判罚了点球,球迷会是什么反应?如果C罗现在进场,全场会怎样躁动?
这就是人类大脑每天在做的事——我们在脑子里运行着无数个"世界模型"。
一个棒球手面对150公里/小时的来球时,必须在球到达本垒板之前就完成挥棒决策。不是因为他的反应比光速还快,而是因为他大脑里的"世界模型"已经预测出了球的轨迹。
Donald Hoffman(加州大学认知科学教授)有个更激进的想法:我们所有人每天都戴着一副"现实头盔"。真实世界的信息量太大了,大脑处理不过来,所以我们简化了它。我们活在一个"持久的白日梦"里,而这个梦足够好用,让我们活到了今天。
听起来很玄乎?但如果这玩意儿能让机器也学会呢?
1990年的一篇论文,预言了2026年的风口
故事要从1990年说起。
那年,一个叫Jürgen Schmidhuber的年轻研究员在慕尼黑工业大学发表了论文《Making the World Differentiable》。论文提出了一个在当时看来近乎疯狂的设想:能不能让智能体在一个完全虚拟的世界里学习,然后把学到的东西直接迁移到现实?
不用接触真实环境。不用承担失败后果。只需要做梦。
同年,Richard Sutton(后来写了那篇著名的《Bitter Lesson》)提出了类似的架构Dyna。他的核心观点是:学习、规划、反应不该是三个割裂的系统,而应该统一在一个架构里。这意味着,理论上你可以构建一个世界模型,在里面疯狂练习,然后直接去现实里碾压。
这两篇论文在当时看来就是天方夜谭。1990年的全球计算能力大约是10-100 gigaFLOPS。而2024年一年卖出的计算设备就达到了10^22 FLOPS(zettaFLOPS级别)。差了20个数量级。
但技术会进步,最疯狂的梦想不会死。
2018年,Google Brain的David Ha和Schmidhuber联手发布了那篇里程碑式的论文《World Models》。他们用三个组件构建了一个系统:
- 视觉模型(V):把像素压缩成紧凑的表示
- 记忆模型(M):用循环神经网络预测下一帧
- 控制器(C):根据V和M的输出决定行动
他们让AI在赛车游戏和射击游戏里"做梦",然后把学到的策略直接应用到真实游戏里。
结果:AI在梦里学会的技能,在现实里也能用。
这就好像你梦见自己学会了弹钢琴,醒来之后发现你真的能弹——虽然梦里的钢琴是虚拟的,但指法是真实的。
为什么LLM可能走不通这条路?
在深入世界模型之前,必须先回答一个关键问题:
既然LLM已经这么强了,为什么我们还需要世界模型?
先做个实验。
请用语言描述"拍手"这个动作。要求精确到皮秒:你的手在空间中处于什么位置?相对于彼此的位置是怎样的?接触点在哪里?声音是怎样的?你的手臂如何弯曲以配合拍手?衣袖如何响应?旁边的人注意到你拍手了吗?他们有什么反应?
你描述得出来吗?
你当然描述不出来。语言是对现实的有损压缩。你能用语言告诉别人"拍手是什么感觉",但你永远无法仅凭语言让一个从未拍手过的人理解拍手的全部细节。
Herman Hesse在《玻璃珠游戏》里写了一个叫Castalia的理想国,那里的知识分子沉迷于纯粹的思想游戏。他们能把人类所有知识压缩成一套符号系统,用抽象的逻辑推演一切。但小说主角Knecht最终选择离开这座"完美"的象牙塔,去当一个普通的家庭教师。
他选择了混乱、具体、不可预测的真实世界,而不是完美但失真的符号系统。
LLM就是Castalia的居民。它们是极其优雅的符号操作者,能讨论物理、创作诗歌、编写代码。但它们从未真正"感受"过重力。一个三岁小孩对重力的理解,可能比所有LLM加起来都深——因为小孩摔过无数次,而LLM只是"读过"关于重力的文字。
LLM能预测下一个token,但它预测的是柏拉图洞穴墙壁上的影子。它永远无法触及影子背后的真实。
而世界模型想做的,是直接构建那个能产生影子的"世界"本身。
世界模型:公式很简单,但威力无穷
世界模型的定义其实很简洁:
给定当前状态和动作,预测下一状态。
就这么一句话。但和LLM的"预测下一个词"有本质区别。
LLM的逻辑是:P(下一个词 | 之前的词)
世界模型的逻辑是:P(下一状态 | 当前状态 + 动作)
那个动作a_t,就是魔法所在。
想象你决定往左跨一步绕过水坑。你的大脑瞬间处理了眼前的画面(人行道、水坑、周围的人、驶来的公交车),预测了各种可能性(公交车会经过、水坑不会移动、后面的人会继续走),然后做出了决策。
外面的人看不到你大脑里的任何计算过程。他们只看到一个结果:你往左跨了一步。
但就是这一步,包含了海量的信息:视觉处理、因果推理、风险评估、后果预测。世界模型要学的,就是这种"输入-动作-输出"的映射。
动作是终极压缩形式。 一个人一秒钟内做出的动作,是他一辈子观察世界、积累经验的结晶。机器如果能学会这种压缩方式,就能用极低的计算成本模拟极其复杂的场景。
这就是为什么世界模型能"计算不可计算之物"。传统模拟必须为每个球迷、每面旗子写规则,计算量随人数指数级增长。但世界模型学习的是"人类在这种情况下通常会怎么做",然后用一个神经网络前向传播就搞定一切。
整个球场的复杂度,被压缩成一个固定的计算成本。
2026年:路线之争
现在问题来了:世界模型到底应该怎么建?
目前有两大路线:
路线一:生成式世界模型(Generative World Models)
这是General Intuition、Wayve、Google DeepMind等公司押注的方向。
核心思想是:直接预测像素。你给我一帧画面和一个动作,我给你生成下一帧画面。生成的视频是可直接观看的,人类可以判断"这个合理吗"。
DIAMOND(2024年)用87小时的《反恐精英》游戏录像,训练出了一个完全可玩的神经游戏引擎。你可以在里面实际操作,AI会实时响应你的每个动作。
Wayve用同样的思路做自动驾驶。他们的GAIA-2能生成复杂的驾驶场景,包括危险的极端情况(突然加塞、紧急刹车、行人冲出)——这些情况在现实里可能几百万公里都遇不到一次,但在模拟里可以无限生成。
优点:直观、可解释、能生成训练数据给人类用、细节丰富
缺点:计算成本高、可能浪费资源在无关细节上
路线二:潜在世界模型(Latent World Models)
这是Yann LeCun和AMI Labs选择的路线。
核心思想是:别预测像素,预测抽象表示。既然未来本来就不可预测,为什么要在像素这种细枝末节上浪费算力?直接在学习到的潜在空间里做预测就好。
LeCun管这叫JEPA(Joint Embedding Predictive Architecture)。他的原话是:"世界是不可预测的。如果你试图构建一个预测未来每个细节的生成模型,它会失败。JEPA不是生成式AI。"
这就好比你要预测"明天的股市走势",你不需要预测每分每秒的波动,只需要知道"大概率会涨/跌"这个抽象结论。
优点:计算高效、专注于本质因果结构、不被无关细节干扰
缺点:难以评估(你看不到预测结果,只能看指标)、难以人类参与迭代、容易陷入表示坍缩
路线之争的背后:一个更大的赌局
这两种路线的分歧,本质上反映了两种不同的AI哲学。
生成式路线相信:细节就是信息,模拟得越真实,学到的越多。DIAMOND的实验证明,增加生成细节确实让智能体变得更聪明。
潜在路线相信:细节是噪声,预测未来不需要知道每个像素长什么样。LeCun认为,试图预测每个像素不仅昂贵,而且适得其反——模型会浪费容量在本质上不可预测的视觉细节上,而不是学习真正重要的因果结构。
但更有意思的是,这个问题可能根本没有"正确答案"。
Moonlake(由Chris Manning、Ian Goodfellow等人创立)给出了一个混合方案:先用漂亮的生成式世界吸引人类玩家,收集动作标注数据,然后再把这些数据压缩到潜在空间做学习。这就好比先用高清相机拍下世界,再用算法提炼出本质规律。
General Intuition的判断是:两条路最终会收敛。
他们现在专注于生成式路线,因为这是目前更实用的方法。但他们也在密切关注潜在路线的进展。Pim De Witte(General Intuition联合创始人)说过一句话很有意思:
"理解和行动不是两种技能,它们是同一技能的两个面。"
机器人先卷起来
说了这么多世界模型的理论,但真正让我觉得"这事儿成了"的,是机器人领域的进展。
**Physical Intelligence(简称π)**是这条赛道上最生猛的公司。
他们的策略看起来很"偷懒":不从头训练世界模型,而是直接拿现成的LLM/VLM,在后面加一个"动作头",让模型学会输出机器人能理解的指令。这被叫做VLA(Vision-Language-Action Model)。
Evan Beard(Standard Bots)对此有一个很辛辣的评价:
"我们用LLM架构不是因为它最适合机器人,而是因为我们作为人类已经在LLM基础设施上投入了数万亿美元。这台机器太诱人了,很难不用。"
这让我想起了W. Brian Arthur关于"技术锁定"的研究:有时候一项技术获胜,不是因为它最优秀,而是因为它最先被采用,然后形成了正向循环——更多用户→更多投资→更好的产品→更多用户。
Physical Intelligence似乎在试图复制这个路径。他们的π₀系列已经能完成叠衣服、收拾餐具、整理线缆、打包快递等任务。最新版本π₀.5甚至能泛化到从未见过的家庭环境。最新的π*0.6展示了从经验中学习的能力——机器人第一次尝试失败后,会根据记忆调整策略,第二次尝试成功。
但问题是:VLAs能走多远?
它们需要海量的真实机器人数据来训练,而且泛化能力存疑。一个在特定厨房训练过的机器人,换一个厨房可能就懵了。
而世界模型的支持者认为:如果能在无限丰富的模拟世界里训练,泛化问题自然就解决了。
这就是为什么世界模型和VLAs可能不是竞争对手,而是最终会融合的两种路径。
真正的战场:具身智能
让我们回到最开头的问题:为什么世界模型值得50亿美元?
因为它指向的是具身智能(Embodied AI)——能在物理世界里行动的智能。
LLM再强,也只能生成文字。它无法帮你把杯子放到桌子上,无法帮你开车,无法帮你组装家具。它能告诉你"如何组装宜家家具",但它自己连一个螺丝都拧不了。
而世界模型要解决的,正是这个问题。
comma.ai用世界模型训练驾驶策略,然后直接部署到真实车辆上。他们的方法完全在模拟器里训练,然后零样本迁移到现实世界。结果是:这个用世界模型训练的系统,表现超过了传统模仿学习和在常规模拟器里训练的系统。
Google DeepMind的SIMA 2更激进:它直接用Gemini(一个大型语言模型)作为主干,结合世界模型来理解3D游戏环境。它能理解高级目标、执行复杂多步骤指令、在未见过的环境里泛化。
目标很明确:在虚拟世界里训练,在现实世界里行动。
如果这能work,那就意味着:
- 机器人可以在无限丰富的模拟环境里练到吐,然后直接去工厂上班
- 自动驾驶可以在虚拟城市里经历所有极端情况,然后上路
- 任何需要"动手"的智能任务,都可以用虚拟数据来训练
这就是为什么NVIDIA、OpenAI、Google、Meta都在往这个方向砸钱。
结语:你在梦里,还是在现实?
写到最后,我想起了《黑客帝国》里的那个经典选择。
红药丸:醒来,看到残酷的真相。
蓝药丸:继续活在美好的梦里。
但世界模型让这个寓言变得复杂了。
如果一个世界模型足够精确,精确到在里面训练智能体,然后迁移到现实——那这个模型算不算"真实"?
如果一个机器人通过观察人类行为学会了所有技能,它的"理解"和人类的"理解"有什么本质区别?
最让我后背发凉的是文中那个思想实验的结尾:
"举个例子……你如何确定你自己不是一个运行在世界模型里的智能体?"
"醒来吧,Neo。"
1990年,Schmidhuber和Sutton提出了这个世界模型的构想。他们等了近30年,才等来计算能力和数据量足以让这个想法成真。
2026年,我们正站在这条路的起点。
50亿美元的融资只是开始。真正的突破还没有到来。但当它到来时——当世界模型真正能"计算不可计算之物"时——我们可能需要重新思考"现实"这个词的含义。
也许,我们一直就活在一个世界里,只是现在终于有人开始学会模拟它了。
【MiniMax-M2.1锐评】:这篇文章把一个晦涩的技术概念讲成了"人类vs机器"的哲学故事,用足够多的比喻和对比让读者产生"这事儿跟我有关"的直觉,最后用一个黑客帝国梗收尾,留下的余韵够读者回味好几天。
参考链接:
https://x.com/packyM/status/2035330916139082228