“没有引擎,没有网格,没有手工编写的动力学。”

这句话要是放在几年前,会被认为是胡扯。

但在今天,这是 NVIDIA 高级科学家 Jim Fan 对他们最新项目 DreamDojo 的定义。

这不只是个 AI 模型,这几乎是在宣告传统机器人仿真器的死刑。

就在刚刚,NVIDIA 开源了这个基于人类视频训练的交互式世界模型。

它不看机器人数据,只看人怎么做,然后就能在像素世界里预测未来。

机器人学习的“至暗时刻”被终结

image

搞机器人研发的朋友都知道,现实世界有多难搞。

你想让机器人学会倒水?你得真给它一个杯子,让它倒,洒了,再倒。

这过程不仅慢,而且极其费钱——电机烧坏了怎么办?撞到人了怎么办?每次失败还得有人去把现场复位。

这就是所谓的现实瓶颈。

为了绕过这个坑,大家通常用仿真器。

传统仿真器是什么?那是程序员一行行代码敲出来的物理定律。重力是 9.8,摩擦系数是 0.5,每一个碰撞都要手写规则。

这太笨了,也太贵了。

image

DreamDojo 的出现,就是为了把这个人工的过程彻底砍掉。

它的逻辑很简单:

既然人类已经在这个世界上活了几百万年,为什么不让机器人直接看人类是怎么干的?

NVIDIA 直接扔进了 44,711 小时的人类第一人称视频。

比之前最大的世界模型训练数据集还要长 15 倍,技能数量多出 96 倍,场景多出 2000 倍。

简直是给机器人喂了一整部“人类生活百科全书”。

偷师人类:机器人不需要再重新发明轮子

你可能会问,看人视频有什么难的?现在的视频生成模型不是满天飞吗?

区别在于,那些视频模型大多是在瞎编,而 DreamDojo 是在理解因果。

最关键的技术突破,在于他们搞出了一个叫 “潜在动作” 的东西。

这东西很巧妙。人类视频里只有画面,没有机器人的电机指令。

如果直接让机器人模仿人的动作,那是东施效颦,身体构造都不一样,怎么学?

于是,DreamDojo 用一个 VAE 模型,把视频里“发生了什么变化”压缩成一个向量。

它不看你是用手抓还是用机械臂抓,它只提取“物体从 A 移动到了 B”这个本质动作。

这就像是一个通用的翻译官。

image

有了这个翻译官,机器人就能看懂人类视频里的物理规律了:杯子掉了会碎,水泼了会流,纸折了会有痕迹。

这些都不是代码写死的,而是从几万小时的视频里悟出来的。

结果就是,DreamDojo 实现了惊人的 零样本泛化

对于那些机器人从来没见过的物体、从来没去过的环境,只要人类在视频里见过,机器人就能在模拟世界里把它推演出来。

仿真 2.0:在梦里练兵,醒来就能实战

光有预测还不够,一个世界模型如果跑得比蜗牛还慢,那就只能是个玩具。

NVIDIA 这次还秀了一把肌肉。

他们把模型蒸馏了一下,让它在 10 FPS 的帧率下实时运行,而且能稳定跑一分钟不崩。

image

他们演示了一个很酷的场景:

带上 PICO 头显,手拿 VR 控制器,在一块 RTX 5090 上,就能实时操控一台 Unitree G1 机器人在虚拟世界里干活。

但这只是开胃菜。

真正的杀手锏是 策略评估模型规划

以前你要测试一个机器人算法好不好,得把真家伙拉出来跑,跑坏了还得修。现在呢,直接扔进 DreamDojo 里跑就行了。

论文里的数据显示,DreamDojo 里的模拟成功率,和现实世界的真实结果高度相关。你完全可以不用烧一个电机,就能给算法打分排位。

更有意思的是那个水果打包任务。

利用 DreamDojo 在“梦里”预先规划好动作,再放到现实里执行,成功率直接提升了 17%

这就像是你晚上做梦练了一晚上钢琴,第二天起来手指就灵活了。

image

2026 年,属于物理 AI 的时代

我个人觉得,DreamDojo 最大的意义不在于技术本身,而在于它验证了那个著名的“苦涩教训”。

在 AI 领域,通用的、大规模的计算,总是能打败那些人类精心设计的、基于规则的系统。

这次,轮到机器人仿真器了。

image

NVIDIA 这次也是下了血本,权重、代码、数据集、论文,统统开源。这显然是想把整个生态都拉到他们的 Cosmos 平台上来。

Jim Fan 在推特上断言:2026 是物理 AI 世界模型的一年。

看着这 4.4 万小时的人类数据,和那个号称“Simulation 2.0”的架构,我觉得他这次可能没在吹牛。

当机器人开始通过“做梦”来学习如何征服物理世界,我们离那个遍地机器人的未来,是不是又近了一大步?

参考链接:
https://x.com/DrJimFan/status/2024895359236051274