Waymo 刚刚给自动驾驶造了一个“黑客帝国”

说实话，Waymo 这回真的有点“吓人”。

就在刚才，这家已经在现实世界里跑了近 2 亿英里 的自动驾驶巨头，扔出了一枚重磅炸弹——The Waymo World Model。

这不是普通的软件更新，这简直是在给自动驾驶造一个“黑客帝国”。

想象一下，一辆自动驾驶汽车，不仅在旧金山的街头穿梭，还在虚拟世界里经历了无数次“生死时速”：面对龙卷风、在金门大桥的积雪中打滑、甚至路中间突然窜出一头大象。

你没看错，是大象。

这一切，都发生在这个基于 Google DeepMind 最强通用世界模型 Genie 3 打造的模拟器里。

当自动驾驶开始“做梦”

先看一组数据，感受一下这种反差。

Waymo 的无人车已经在现实道路上行驶了近 2 亿英里，这确实是个天文数字，足以让它们成为美国城市交通的一部分。

但老实讲，现实世界的路况虽然复杂，终究还是有限的。真正的“地狱级”考验，往往藏在那些极小概率的极端情况里。

这就是 Waymo World Model 登场的原因。

它是一个前沿的生成式模型，专门用来构建大规模、超逼真的自动驾驶模拟环境。简单说，它能让 Waymo 的司机在虚拟世界里“行驶”数十亿英里，在遇到真实危险之前，就已经在模拟器里把这些坑踩烂了。

有意思的是，这个模型的核心并非 Waymo 原创，而是站在了巨人的肩膀上——Google DeepMind 的 Genie 3。

AI配图

这点非常关键。

站在巨人的肩膀上“开挂”

很多人可能没意识到，Waymo 这波操作展示了 Alphabet（Google 母公司）恐怖的垂直整合能力。

正如评论区里有人一针见血地指出：Google/Alphabet 在 AI 领域的垂直整合简直令人发指。 从自研芯片、数据中心，到 DeepMind 的顶尖算法，再到 Waymo 的落地场景，这是一条完整的闭环。

Waymo World Model 直接复用了 Genie 3 的庞大世界知识。Genie 3 是在极其庞大和多样化的视频集上预训练的，这意味着它见过的世面，远超任何一家只靠自己车队采集数据的自动驾驶公司。

这带来了一个质的飞跃：从 2D 视频到 3D 激光雷达的跨越。

其他公司的模拟器大多是从零开始训练，只能基于有限的“在路上”数据学习。而 Waymo 通过专门的后训练，把 Genie 3 那海量的 2D 视频世界知识，转化成了 Waymo 硬件专属的 3D 激光雷达输出。

这不仅仅是看得清，更是看得“深”。

只有你想不到，没有它不敢演

既然是“造梦”，那就得造得足够疯狂。

Waymo World Model 的生成能力，简直可以说是“放飞自我”。它不再局限于日常的堵车和变道，而是专门针对那些**“长尾”**中的“长尾”。

来看看它在模拟器里都折腾了些什么：

极端天气和自然灾害： 金门大桥上覆盖着薄雪，车头灯下的影子清晰可见；热带城市的棕榈树竟然被奇怪的积雪覆盖；甚至还有龙卷风、被洪水淹没的死胡同、以及从熊熊大火中开出的场景。
离谱的安全隐患： 疯狂的司机把车开进了沟里；前车一头扎进树丛；满载家具的卡车摇摇欲坠；还有故障的卡车逆行堵路。
奇葩的遭遇： 路中间突然出现一头友好的大象；德克萨斯长角牛；一只狮子；一个打扮成霸王龙的行人；甚至是一个像汽车一样巨大的滚草。

(注：素材中仅提供视频占位符，此处为描述性示意)

这些场景在现实生活中几乎不可能大规模捕捉到，或者说，谁也不想真的在路上碰见大象和龙卷风。

但在 Waymo World Model 里，这些成了日常训练科目。

这种高保真的多模态输出（摄像头 + 激光雷达），让 AI 学会了如何处理这些“不可能”。正如他们所说，通过模拟“不可能”，主动为司机准备最罕见和复杂的场景。

上帝视角：一句话改变世界

除了生成逼真的场景，这个模型还给了工程师们一种近乎“上帝视角”的控制权。

这种控制力主要体现在三个方面：驾驶动作控制、场景布局控制，以及最硬核的——语言控制。

这就很有意思了。

你可以像玩《模拟城市》一样，随意改变道路布局、交通信号状态，甚至决定其他车辆的行为。更骚的是，你只需要输入简单的语言提示，就能改变环境。

想看雨天？输入指令。想看雪天？输入指令。

素材里展示了一个“世界变异”的功能：从黎明、早晨、中午、下午，一直到傍晚和深夜，光线随着指令平滑切换。天气也是同理，多云、雾、雨、雪、晴，随心所欲。

这意味着什么？意味着测试效率的指数级提升。

不再需要苦等天降大雪，只需要在键盘上敲几个字，整个虚拟世界立刻银装素裹。这对于训练自动驾驶在极端条件下的鲁棒性，简直是神技。

甚至，它还能把你手机或行车记录仪拍的视频，直接转换成多模态模拟。

你在挪威拍的一段风景，或者在美国拱门国家公园的一段旅程，喂给这个模型，它就能还原出 Waymo 司机眼中的那个场景。这不仅是逼真，简直就是“复刻”。

AI配图

我个人觉得，这里其实藏着一个 Waymo 的“凡尔赛”：这暗示了他们其实完全有能力只靠摄像头开车。 毕竟，连普通视频都能转成他们的模拟数据，纯视觉模式对他们来说可能只是愿不愿意开启的问题。

模拟得再好，能防停电吗？

看到这里，你可能会觉得 Waymo 已经无敌了。

但作为一个在科技圈摸爬滚打多年的人，我总觉得得泼点冷水。

评论区里有网友提到了一个非常犀利，甚至有点尴尬的对比：

“看到这里模拟洪水、龙卷风和野火令人印象深刻。但当 12 月 22 日旧金山停电时，满街的 Waymo 似乎同时趴窝了，这也有点令人费解。停电感觉是一个基准场景——比演示中的灾害常见几个数量级。如果系统不能在交通灯熄灭时优雅降级，所有这些模拟到底买到了什么？”

这话虽狠，但不无道理。

我们在模拟器里教 AI 怎么躲避大象，怎么穿越火海，这确实很酷，也确实代表了技术的前沿。但如果回到现实，面对一个简单的红绿灯故障，车队就集体“死机”，这种反差感实在太强了。

这也是目前端到端大模型和世界模型面临的一个共同挑战：如何在模拟的“极端完美”和现实的“混乱无序”之间找到平衡？

还有评论指出，基于“成功驾驶数据”训练的世界模型，可能会“洗白”很多隐性假设。比如，训练数据里可能没有“前车停车，你变道超车，结果后方来车撞你”的案例。这种“幸存者偏差”在模拟器里很难被发现，但在现实中可能是致命的。

写在最后

不管怎么说，Waymo World Model 的出现，确实把自动驾驶仿真技术的门槛拉高了一个维度。

通过 Genie 3 的加持，他们不再仅仅是“收集数据”，而是开始“创造数据”。这种从被动接受到主动生成的转变，或许才是通向真正 L5 级自动驾驶的关键钥匙。

虽然现在它可能还搞不定停电的红绿灯，但至少在虚拟世界里，它已经学会了怎么在龙卷风里避让一头大象。

剩下的，就是让梦境照进现实了。

只是，当 AI 开始在它自己编织的梦境里学习驾驶时，我们离《黑客帝国》里的情节，是不是又近了一步？

参考链接：
https://waymo.com/blog/2026/02/the-waymo-world-model-a-new-frontier-for-autonomous-driving-simulation