NVIDIA 用 4.4 万小时人类视频，硬生生造出了一个世界，0 物理引擎，0 代码

“没有引擎，没有网格，没有手工编写的动力学。”

这句话要是放在几年前，会被认为是胡扯。

但在今天，这是 NVIDIA 高级科学家 Jim Fan 对他们最新项目 DreamDojo 的定义。

这不只是个 AI 模型，这几乎是在宣告传统机器人仿真器的死刑。

就在刚刚，NVIDIA 开源了这个基于人类视频训练的交互式世界模型。

它不看机器人数据，只看人怎么做，然后就能在像素世界里预测未来。

机器人学习的“至暗时刻”被终结

搞机器人研发的朋友都知道，现实世界有多难搞。

你想让机器人学会倒水？你得真给它一个杯子，让它倒，洒了，再倒。

这过程不仅慢，而且极其费钱——电机烧坏了怎么办？撞到人了怎么办？每次失败还得有人去把现场复位。

这就是所谓的现实瓶颈。

为了绕过这个坑，大家通常用仿真器。

传统仿真器是什么？那是程序员一行行代码敲出来的物理定律。重力是 9.8，摩擦系数是 0.5，每一个碰撞都要手写规则。

这太笨了，也太贵了。

DreamDojo 的出现，就是为了把这个人工的过程彻底砍掉。

它的逻辑很简单：

既然人类已经在这个世界上活了几百万年，为什么不让机器人直接看人类是怎么干的？

NVIDIA 直接扔进了 44,711 小时的人类第一人称视频。

比之前最大的世界模型训练数据集还要长 15 倍，技能数量多出 96 倍，场景多出 2000 倍。

简直是给机器人喂了一整部“人类生活百科全书”。

偷师人类：机器人不需要再重新发明轮子

你可能会问，看人视频有什么难的？现在的视频生成模型不是满天飞吗？

区别在于，那些视频模型大多是在瞎编，而 DreamDojo 是在理解因果。

最关键的技术突破，在于他们搞出了一个叫 “潜在动作” 的东西。

这东西很巧妙。人类视频里只有画面，没有机器人的电机指令。

如果直接让机器人模仿人的动作，那是东施效颦，身体构造都不一样，怎么学？

于是，DreamDojo 用一个 VAE 模型，把视频里“发生了什么变化”压缩成一个向量。

它不看你是用手抓还是用机械臂抓，它只提取“物体从 A 移动到了 B”这个本质动作。

这就像是一个通用的翻译官。

有了这个翻译官，机器人就能看懂人类视频里的物理规律了：杯子掉了会碎，水泼了会流，纸折了会有痕迹。

这些都不是代码写死的，而是从几万小时的视频里悟出来的。

结果就是，DreamDojo 实现了惊人的 零样本泛化。

对于那些机器人从来没见过的物体、从来没去过的环境，只要人类在视频里见过，机器人就能在模拟世界里把它推演出来。

仿真 2.0：在梦里练兵，醒来就能实战

光有预测还不够，一个世界模型如果跑得比蜗牛还慢，那就只能是个玩具。

NVIDIA 这次还秀了一把肌肉。

他们把模型蒸馏了一下，让它在 10 FPS 的帧率下实时运行，而且能稳定跑一分钟不崩。

他们演示了一个很酷的场景：

带上 PICO 头显，手拿 VR 控制器，在一块 RTX 5090 上，就能实时操控一台 Unitree G1 机器人在虚拟世界里干活。

但这只是开胃菜。

真正的杀手锏是 策略评估 和 模型规划。

以前你要测试一个机器人算法好不好，得把真家伙拉出来跑，跑坏了还得修。现在呢，直接扔进 DreamDojo 里跑就行了。

论文里的数据显示，DreamDojo 里的模拟成功率，和现实世界的真实结果高度相关。你完全可以不用烧一个电机，就能给算法打分排位。

更有意思的是那个水果打包任务。

利用 DreamDojo 在“梦里”预先规划好动作，再放到现实里执行，成功率直接提升了 17%。

这就像是你晚上做梦练了一晚上钢琴，第二天起来手指就灵活了。

2026 年，属于物理 AI 的时代

我个人觉得，DreamDojo 最大的意义不在于技术本身，而在于它验证了那个著名的“苦涩教训”。

在 AI 领域，通用的、大规模的计算，总是能打败那些人类精心设计的、基于规则的系统。

这次，轮到机器人仿真器了。

NVIDIA 这次也是下了血本，权重、代码、数据集、论文，统统开源。这显然是想把整个生态都拉到他们的 Cosmos 平台上来。

Jim Fan 在推特上断言：2026 是物理 AI 世界模型的一年。

看着这 4.4 万小时的人类数据，和那个号称“Simulation 2.0”的架构，我觉得他这次可能没在吹牛。

当机器人开始通过“做梦”来学习如何征服物理世界，我们离那个遍地机器人的未来，是不是又近了一大步？

参考链接：
https://x.com/DrJimFan/status/2024895359236051274