2026年最凶猛的融资赛道：巨头们正在"梦见"同一个未来

当Fei-Fei Li宣布World Labs又拿到10亿美元融资时，科技圈的反应从"震惊"变成了"麻木"。

这已经是2026年第几家估值破10亿美元的世界模型公司了？掰手指头数数：World Labs、AMI Labs、General Intuition、Wayve、Physical Intelligence、Decart……融资总额轻松突破50亿美元。

但真正让我后背发凉的不是数字。

是Jim Fan（NVIDIA机器人领域首席科学家）说的那句话："Unfortunately, the most hyped use case of World Models right now is AI video slop. I bet with full confidence that 2026 will mark the first year that Large World Models lay real foundations for robotics."

AI配图

翻译成人话：现在这帮公司都在用世界模型的概念画大饼，真正在做实事的没几个。但2026年不一样了，真正能落地的世界模型要来了。

而问题是——你甚至不知道什么是世界模型。

一个让你怀疑人生的比喻

先做个思想实验。

想象你正在看一场曼联比赛。你看到的是什么？

一个球迷举起自制的横幅。整座球场开始唱起歌来。有人抱着孩子跳起来，一对老夫妻静静坐着，仿佛这是他们最后一次现场看球。

现在，闭上眼睛。想象这一切需要多少计算量？

传统游戏引擎会告诉你：这至少是个O(N)甚至O(N²)的问题。每个人、每面旗子、每张椅子、每个皮球，都必须被单独计算。它们之间的互动，更得重新算一遍。

但对你来说呢？想象这一切几乎不费吹灰之力。你不需要"计算"就能在脑子里重现整座球场的氛围。你甚至能在脑子里预演：如果裁判刚才判罚了点球，球迷会是什么反应？如果C罗现在进场，全场会怎样躁动？

这就是人类大脑每天在做的事——我们在脑子里运行着无数个"世界模型"。

一个棒球手面对150公里/小时的来球时，必须在球到达本垒板之前就完成挥棒决策。不是因为他的反应比光速还快，而是因为他大脑里的"世界模型"已经预测出了球的轨迹。

Donald Hoffman（加州大学认知科学教授）有个更激进的想法：我们所有人每天都戴着一副"现实头盔"。真实世界的信息量太大了，大脑处理不过来，所以我们简化了它。我们活在一个"持久的白日梦"里，而这个梦足够好用，让我们活到了今天。

听起来很玄乎？但如果这玩意儿能让机器也学会呢？

1990年的一篇论文，预言了2026年的风口

故事要从1990年说起。

那年，一个叫Jürgen Schmidhuber的年轻研究员在慕尼黑工业大学发表了论文《Making the World Differentiable》。论文提出了一个在当时看来近乎疯狂的设想：能不能让智能体在一个完全虚拟的世界里学习，然后把学到的东西直接迁移到现实？

不用接触真实环境。不用承担失败后果。只需要做梦。

同年，Richard Sutton（后来写了那篇著名的《Bitter Lesson》）提出了类似的架构Dyna。他的核心观点是：学习、规划、反应不该是三个割裂的系统，而应该统一在一个架构里。这意味着，理论上你可以构建一个世界模型，在里面疯狂练习，然后直接去现实里碾压。

AI配图

这两篇论文在当时看来就是天方夜谭。1990年的全球计算能力大约是10-100 gigaFLOPS。而2024年一年卖出的计算设备就达到了10^22 FLOPS（zettaFLOPS级别）。差了20个数量级。

但技术会进步，最疯狂的梦想不会死。

2018年，Google Brain的David Ha和Schmidhuber联手发布了那篇里程碑式的论文《World Models》。他们用三个组件构建了一个系统：

视觉模型(V)：把像素压缩成紧凑的表示
记忆模型(M)：用循环神经网络预测下一帧
控制器(C)：根据V和M的输出决定行动

他们让AI在赛车游戏和射击游戏里"做梦"，然后把学到的策略直接应用到真实游戏里。

结果：AI在梦里学会的技能，在现实里也能用。

这就好像你梦见自己学会了弹钢琴，醒来之后发现你真的能弹——虽然梦里的钢琴是虚拟的，但指法是真实的。

为什么LLM可能走不通这条路？

在深入世界模型之前，必须先回答一个关键问题：

既然LLM已经这么强了，为什么我们还需要世界模型？

AI配图

先做个实验。

请用语言描述"拍手"这个动作。要求精确到皮秒：你的手在空间中处于什么位置？相对于彼此的位置是怎样的？接触点在哪里？声音是怎样的？你的手臂如何弯曲以配合拍手？衣袖如何响应？旁边的人注意到你拍手了吗？他们有什么反应？

你描述得出来吗？

你当然描述不出来。语言是对现实的有损压缩。你能用语言告诉别人"拍手是什么感觉"，但你永远无法仅凭语言让一个从未拍手过的人理解拍手的全部细节。

Herman Hesse在《玻璃珠游戏》里写了一个叫Castalia的理想国，那里的知识分子沉迷于纯粹的思想游戏。他们能把人类所有知识压缩成一套符号系统，用抽象的逻辑推演一切。但小说主角Knecht最终选择离开这座"完美"的象牙塔，去当一个普通的家庭教师。

他选择了混乱、具体、不可预测的真实世界，而不是完美但失真的符号系统。

LLM就是Castalia的居民。它们是极其优雅的符号操作者，能讨论物理、创作诗歌、编写代码。但它们从未真正"感受"过重力。一个三岁小孩对重力的理解，可能比所有LLM加起来都深——因为小孩摔过无数次，而LLM只是"读过"关于重力的文字。

LLM能预测下一个token，但它预测的是柏拉图洞穴墙壁上的影子。它永远无法触及影子背后的真实。

而世界模型想做的，是直接构建那个能产生影子的"世界"本身。

世界模型：公式很简单，但威力无穷

世界模型的定义其实很简洁：

给定当前状态和动作，预测下一状态。

就这么一句话。但和LLM的"预测下一个词"有本质区别。

LLM的逻辑是：P(下一个词 | 之前的词)

世界模型的逻辑是：P(下一状态 | 当前状态 + 动作)

那个动作a_t，就是魔法所在。

想象你决定往左跨一步绕过水坑。你的大脑瞬间处理了眼前的画面（人行道、水坑、周围的人、驶来的公交车），预测了各种可能性（公交车会经过、水坑不会移动、后面的人会继续走），然后做出了决策。

外面的人看不到你大脑里的任何计算过程。他们只看到一个结果：你往左跨了一步。

但就是这一步，包含了海量的信息：视觉处理、因果推理、风险评估、后果预测。世界模型要学的，就是这种"输入-动作-输出"的映射。

动作是终极压缩形式。 一个人一秒钟内做出的动作，是他一辈子观察世界、积累经验的结晶。机器如果能学会这种压缩方式，就能用极低的计算成本模拟极其复杂的场景。

这就是为什么世界模型能"计算不可计算之物"。传统模拟必须为每个球迷、每面旗子写规则，计算量随人数指数级增长。但世界模型学习的是"人类在这种情况下通常会怎么做"，然后用一个神经网络前向传播就搞定一切。

整个球场的复杂度，被压缩成一个固定的计算成本。

2026年：路线之争

现在问题来了：世界模型到底应该怎么建？

目前有两大路线：

路线一：生成式世界模型（Generative World Models）

这是General Intuition、Wayve、Google DeepMind等公司押注的方向。

核心思想是：直接预测像素。你给我一帧画面和一个动作，我给你生成下一帧画面。生成的视频是可直接观看的，人类可以判断"这个合理吗"。

DIAMOND（2024年）用87小时的《反恐精英》游戏录像，训练出了一个完全可玩的神经游戏引擎。你可以在里面实际操作，AI会实时响应你的每个动作。

Wayve用同样的思路做自动驾驶。他们的GAIA-2能生成复杂的驾驶场景，包括危险的极端情况（突然加塞、紧急刹车、行人冲出）——这些情况在现实里可能几百万公里都遇不到一次，但在模拟里可以无限生成。

优点：直观、可解释、能生成训练数据给人类用、细节丰富
缺点：计算成本高、可能浪费资源在无关细节上

路线二：潜在世界模型（Latent World Models）

这是Yann LeCun和AMI Labs选择的路线。

核心思想是：别预测像素，预测抽象表示。既然未来本来就不可预测，为什么要在像素这种细枝末节上浪费算力？直接在学习到的潜在空间里做预测就好。

LeCun管这叫JEPA（Joint Embedding Predictive Architecture）。他的原话是："世界是不可预测的。如果你试图构建一个预测未来每个细节的生成模型，它会失败。JEPA不是生成式AI。"

这就好比你要预测"明天的股市走势"，你不需要预测每分每秒的波动，只需要知道"大概率会涨/跌"这个抽象结论。

优点：计算高效、专注于本质因果结构、不被无关细节干扰
缺点：难以评估（你看不到预测结果，只能看指标）、难以人类参与迭代、容易陷入表示坍缩

路线之争的背后：一个更大的赌局

这两种路线的分歧，本质上反映了两种不同的AI哲学。

生成式路线相信：细节就是信息，模拟得越真实，学到的越多。DIAMOND的实验证明，增加生成细节确实让智能体变得更聪明。

潜在路线相信：细节是噪声，预测未来不需要知道每个像素长什么样。LeCun认为，试图预测每个像素不仅昂贵，而且适得其反——模型会浪费容量在本质上不可预测的视觉细节上，而不是学习真正重要的因果结构。

但更有意思的是，这个问题可能根本没有"正确答案"。

Moonlake（由Chris Manning、Ian Goodfellow等人创立）给出了一个混合方案：先用漂亮的生成式世界吸引人类玩家，收集动作标注数据，然后再把这些数据压缩到潜在空间做学习。这就好比先用高清相机拍下世界，再用算法提炼出本质规律。

General Intuition的判断是：两条路最终会收敛。

他们现在专注于生成式路线，因为这是目前更实用的方法。但他们也在密切关注潜在路线的进展。Pim De Witte（General Intuition联合创始人）说过一句话很有意思：

"理解和行动不是两种技能，它们是同一技能的两个面。"

机器人先卷起来

说了这么多世界模型的理论，但真正让我觉得"这事儿成了"的，是机器人领域的进展。

**Physical Intelligence（简称π）**是这条赛道上最生猛的公司。

他们的策略看起来很"偷懒"：不从头训练世界模型，而是直接拿现成的LLM/VLM，在后面加一个"动作头"，让模型学会输出机器人能理解的指令。这被叫做VLA（Vision-Language-Action Model）。

Evan Beard（Standard Bots）对此有一个很辛辣的评价：

"我们用LLM架构不是因为它最适合机器人，而是因为我们作为人类已经在LLM基础设施上投入了数万亿美元。这台机器太诱人了，很难不用。"

这让我想起了W. Brian Arthur关于"技术锁定"的研究：有时候一项技术获胜，不是因为它最优秀，而是因为它最先被采用，然后形成了正向循环——更多用户→更多投资→更好的产品→更多用户。

Physical Intelligence似乎在试图复制这个路径。他们的π₀系列已经能完成叠衣服、收拾餐具、整理线缆、打包快递等任务。最新版本π₀.5甚至能泛化到从未见过的家庭环境。最新的π*0.6展示了从经验中学习的能力——机器人第一次尝试失败后，会根据记忆调整策略，第二次尝试成功。

但问题是：VLAs能走多远？

它们需要海量的真实机器人数据来训练，而且泛化能力存疑。一个在特定厨房训练过的机器人，换一个厨房可能就懵了。

而世界模型的支持者认为：如果能在无限丰富的模拟世界里训练，泛化问题自然就解决了。

这就是为什么世界模型和VLAs可能不是竞争对手，而是最终会融合的两种路径。

真正的战场：具身智能

让我们回到最开头的问题：为什么世界模型值得50亿美元？

因为它指向的是具身智能（Embodied AI）——能在物理世界里行动的智能。

LLM再强，也只能生成文字。它无法帮你把杯子放到桌子上，无法帮你开车，无法帮你组装家具。它能告诉你"如何组装宜家家具"，但它自己连一个螺丝都拧不了。

而世界模型要解决的，正是这个问题。

comma.ai用世界模型训练驾驶策略，然后直接部署到真实车辆上。他们的方法完全在模拟器里训练，然后零样本迁移到现实世界。结果是：这个用世界模型训练的系统，表现超过了传统模仿学习和在常规模拟器里训练的系统。

Google DeepMind的SIMA 2更激进：它直接用Gemini（一个大型语言模型）作为主干，结合世界模型来理解3D游戏环境。它能理解高级目标、执行复杂多步骤指令、在未见过的环境里泛化。

目标很明确：在虚拟世界里训练，在现实世界里行动。

如果这能work，那就意味着：

机器人可以在无限丰富的模拟环境里练到吐，然后直接去工厂上班
自动驾驶可以在虚拟城市里经历所有极端情况，然后上路
任何需要"动手"的智能任务，都可以用虚拟数据来训练

这就是为什么NVIDIA、OpenAI、Google、Meta都在往这个方向砸钱。

结语：你在梦里，还是在现实？

写到最后，我想起了《黑客帝国》里的那个经典选择。

红药丸：醒来，看到残酷的真相。
蓝药丸：继续活在美好的梦里。

但世界模型让这个寓言变得复杂了。

如果一个世界模型足够精确，精确到在里面训练智能体，然后迁移到现实——那这个模型算不算"真实"？

如果一个机器人通过观察人类行为学会了所有技能，它的"理解"和人类的"理解"有什么本质区别？

最让我后背发凉的是文中那个思想实验的结尾：

"举个例子……你如何确定你自己不是一个运行在世界模型里的智能体？"

"醒来吧，Neo。"

1990年，Schmidhuber和Sutton提出了这个世界模型的构想。他们等了近30年，才等来计算能力和数据量足以让这个想法成真。

2026年，我们正站在这条路的起点。

50亿美元的融资只是开始。真正的突破还没有到来。但当它到来时——当世界模型真正能"计算不可计算之物"时——我们可能需要重新思考"现实"这个词的含义。

也许，我们一直就活在一个世界里，只是现在终于有人开始学会模拟它了。

【MiniMax-M2.1锐评】：这篇文章把一个晦涩的技术概念讲成了"人类vs机器"的哲学故事，用足够多的比喻和对比让读者产生"这事儿跟我有关"的直觉，最后用一个黑客帝国梗收尾，留下的余韵够读者回味好几天。

参考链接：
https://x.com/packyM/status/2035330916139082228