说实话,Waymo 这回真的有点“吓人”。

就在刚才,这家已经在现实世界里跑了近 2 亿英里 的自动驾驶巨头,扔出了一枚重磅炸弹——The Waymo World Model

这不是普通的软件更新,这简直是在给自动驾驶造一个“黑客帝国”。

想象一下,一辆自动驾驶汽车,不仅在旧金山的街头穿梭,还在虚拟世界里经历了无数次“生死时速”:面对龙卷风、在金门大桥的积雪中打滑、甚至路中间突然窜出一头大象。

你没看错,是大象。

这一切,都发生在这个基于 Google DeepMind 最强通用世界模型 Genie 3 打造的模拟器里。

当自动驾驶开始“做梦”

先看一组数据,感受一下这种反差。

Waymo 的无人车已经在现实道路上行驶了近 2 亿英里,这确实是个天文数字,足以让它们成为美国城市交通的一部分。

但老实讲,现实世界的路况虽然复杂,终究还是有限的。真正的“地狱级”考验,往往藏在那些极小概率的极端情况里。

这就是 Waymo World Model 登场的原因。

它是一个前沿的生成式模型,专门用来构建大规模、超逼真的自动驾驶模拟环境。简单说,它能让 Waymo 的司机在虚拟世界里“行驶”数十亿英里,在遇到真实危险之前,就已经在模拟器里把这些坑踩烂了。

有意思的是,这个模型的核心并非 Waymo 原创,而是站在了巨人的肩膀上——Google DeepMind 的 Genie 3

AI配图

这点非常关键。

站在巨人的肩膀上“开挂”

很多人可能没意识到,Waymo 这波操作展示了 Alphabet(Google 母公司)恐怖的垂直整合能力。

正如评论区里有人一针见血地指出:Google/Alphabet 在 AI 领域的垂直整合简直令人发指。 从自研芯片、数据中心,到 DeepMind 的顶尖算法,再到 Waymo 的落地场景,这是一条完整的闭环。

Waymo World Model 直接复用了 Genie 3 的庞大世界知识。Genie 3 是在极其庞大和多样化的视频集上预训练的,这意味着它见过的世面,远超任何一家只靠自己车队采集数据的自动驾驶公司。

这带来了一个质的飞跃:从 2D 视频到 3D 激光雷达的跨越。

其他公司的模拟器大多是从零开始训练,只能基于有限的“在路上”数据学习。而 Waymo 通过专门的后训练,把 Genie 3 那海量的 2D 视频世界知识,转化成了 Waymo 硬件专属的 3D 激光雷达输出。

这不仅仅是看得清,更是看得“深”。

只有你想不到,没有它不敢演

既然是“造梦”,那就得造得足够疯狂。

Waymo World Model 的生成能力,简直可以说是“放飞自我”。它不再局限于日常的堵车和变道,而是专门针对那些**“长尾”**中的“长尾”。

来看看它在模拟器里都折腾了些什么:

  • 极端天气和自然灾害: 金门大桥上覆盖着薄雪,车头灯下的影子清晰可见;热带城市的棕榈树竟然被奇怪的积雪覆盖;甚至还有龙卷风、被洪水淹没的死胡同、以及从熊熊大火中开出的场景。
  • 离谱的安全隐患: 疯狂的司机把车开进了沟里;前车一头扎进树丛;满载家具的卡车摇摇欲坠;还有故障的卡车逆行堵路。
  • 奇葩的遭遇: 路中间突然出现一头友好的大象;德克萨斯长角牛;一只狮子;一个打扮成霸王龙的行人;甚至是一个像汽车一样巨大的滚草。

(注:素材中仅提供视频占位符,此处为描述性示意)

这些场景在现实生活中几乎不可能大规模捕捉到,或者说,谁也不想真的在路上碰见大象和龙卷风。

但在 Waymo World Model 里,这些成了日常训练科目。

这种高保真的多模态输出(摄像头 + 激光雷达),让 AI 学会了如何处理这些“不可能”。正如他们所说,通过模拟“不可能”,主动为司机准备最罕见和复杂的场景。

上帝视角:一句话改变世界

除了生成逼真的场景,这个模型还给了工程师们一种近乎“上帝视角”的控制权。

这种控制力主要体现在三个方面:驾驶动作控制、场景布局控制,以及最硬核的——语言控制

这就很有意思了。

你可以像玩《模拟城市》一样,随意改变道路布局、交通信号状态,甚至决定其他车辆的行为。更骚的是,你只需要输入简单的语言提示,就能改变环境。

想看雨天?输入指令。想看雪天?输入指令。

素材里展示了一个“世界变异”的功能:从黎明、早晨、中午、下午,一直到傍晚和深夜,光线随着指令平滑切换。天气也是同理,多云、雾、雨、雪、晴,随心所欲。

这意味着什么?意味着测试效率的指数级提升。

不再需要苦等天降大雪,只需要在键盘上敲几个字,整个虚拟世界立刻银装素裹。这对于训练自动驾驶在极端条件下的鲁棒性,简直是神技。

甚至,它还能把你手机或行车记录仪拍的视频,直接转换成多模态模拟。

你在挪威拍的一段风景,或者在美国拱门国家公园的一段旅程,喂给这个模型,它就能还原出 Waymo 司机眼中的那个场景。这不仅是逼真,简直就是“复刻”。

AI配图

我个人觉得,这里其实藏着一个 Waymo 的“凡尔赛”:这暗示了他们其实完全有能力只靠摄像头开车。 毕竟,连普通视频都能转成他们的模拟数据,纯视觉模式对他们来说可能只是愿不愿意开启的问题。

模拟得再好,能防停电吗?

看到这里,你可能会觉得 Waymo 已经无敌了。

但作为一个在科技圈摸爬滚打多年的人,我总觉得得泼点冷水。

评论区里有网友提到了一个非常犀利,甚至有点尴尬的对比:

“看到这里模拟洪水、龙卷风和野火令人印象深刻。但当 12 月 22 日旧金山停电时,满街的 Waymo 似乎同时趴窝了,这也有点令人费解。停电感觉是一个基准场景——比演示中的灾害常见几个数量级。如果系统不能在交通灯熄灭时优雅降级,所有这些模拟到底买到了什么?”

这话虽狠,但不无道理。

我们在模拟器里教 AI 怎么躲避大象,怎么穿越火海,这确实很酷,也确实代表了技术的前沿。但如果回到现实,面对一个简单的红绿灯故障,车队就集体“死机”,这种反差感实在太强了。

这也是目前端到端大模型和世界模型面临的一个共同挑战:如何在模拟的“极端完美”和现实的“混乱无序”之间找到平衡?

还有评论指出,基于“成功驾驶数据”训练的世界模型,可能会“洗白”很多隐性假设。比如,训练数据里可能没有“前车停车,你变道超车,结果后方来车撞你”的案例。这种“幸存者偏差”在模拟器里很难被发现,但在现实中可能是致命的。

写在最后

不管怎么说,Waymo World Model 的出现,确实把自动驾驶仿真技术的门槛拉高了一个维度。

通过 Genie 3 的加持,他们不再仅仅是“收集数据”,而是开始“创造数据”。这种从被动接受到主动生成的转变,或许才是通向真正 L5 级自动驾驶的关键钥匙。

虽然现在它可能还搞不定停电的红绿灯,但至少在虚拟世界里,它已经学会了怎么在龙卷风里避让一头大象。

剩下的,就是让梦境照进现实了。

只是,当 AI 开始在它自己编织的梦境里学习驾驶时,我们离《黑客帝国》里的情节,是不是又近了一步?

参考链接:
https://waymo.com/blog/2026/02/the-waymo-world-model-a-new-frontier-for-autonomous-driving-simulation