机器人走进仓库,不会绕开地上的箱子;自动驾驶汽车,遇到"鬼探头"就愣住——这类问题背后藏着一个根本缺陷:大多数AI压根不懂物理。
不是不会算,是真的不懂。
现在,英伟达掏出 Cosmos 3,想解决这个问题。
为什么AI"看得见"却"看不懂"
人类的眼睛不只是在接收像素,还在"理解"这些像素背后的物理规律。
球从手里松开,它会掉下去;杯子往桌边推,它会翻倒;前面那辆车突然刹车,驾驶员会减速而不是踩油门冲上去。
这种能力叫做"物理直觉",婴儿在几秒钟内就能建立,但AI学了几十年还差点意思。
问题出在哪?
之前做物理AI的系统,通常需要三个组件:一个负责"看懂"世界的模型,一个负责"生成"场景的模型,还有一个负责"控制"行为的模型。三套系统各玩各的,协调起来跟让三个不同乐队一起演奏交响乐一样——除非你是天才指挥家,否则就是车祸现场。
英伟达这次说:我把它们捏成一个了。
双塔架构:先想后画
Cosmos 3 的核心是"双塔"架构,名字挺中二,但逻辑其实很直接。
第一个塔叫 Reasoner Tower——推理塔。它是个视觉语言模型,负责"看懂"输入的图像、视频、文本。它在生成之前先把物理关系理清楚:物体怎么运动的、它们之间什么关系、下一秒可能发生什么。这个塔相当于AI的"大脑",先想清楚再动手。
第二个塔叫 Generator Tower——生成塔。它基于推理塔的理解,用扩散模型生成"物理上说得通"的视频和动作序列。扩散模型听起来玄乎,简单说就是从噪声开始,逐步"去噪"出一段符合物理规律的连续画面。推理塔喂给它什么理解,生成塔就出什么内容。
两个塔不是独立的——信息从推理塔单向流向生成塔,保证"想"和"画"是一致的。
架构图长这样:

这个设计听起来简单,但它解决了一个很烦的问题:之前开发者需要在多个模型之间来回折腾,现在一个模型把活干了。
开源这件事,有点意思
英伟达这次不只是发布模型,还把训练脚本、部署工具、六大数据集全部开源了。
六个数据集分别是:
Embodied Robot Scenes——机器人操作场景,模拟机械臂抓取、移动物体的动作。

Physical Interaction Scenes——物理交互场景,撞球砸积木、多米诺骨牌倒下这类经典物理场景,每帧都有精确的物理标注。

Spatial Reasoning——空间推理数据集。问机器人"咖啡桌离沙发多远",或者"去书房最优路线怎么走",考察它对三维空间关系的理解。

Digital Human Scenes——数字人场景,各种环境下的人类动作模拟,用于训练机器人的社会感知能力——比如识别一个人正在朝某个方向走、是否要让路。

Autonomous Driving Scenarios——自动驾驶场景,覆盖晴天雨天、不同光照、换道避让行人这类真实驾驶行为。

Warehouse Operations Scenes——仓库运营场景,包括叉车碰撞人、箱子跌落这类"安全事件"的模拟生成。

仓库安全这个例子挺有意思——视频里叉车撞人了,旁边的人完全没反应。评论区有人说"这AI生成的人连躲都不会躲",老实讲,这种细节恰恰说明物理AI还有很长的路要走。但换个角度想,能生成"出事了"的场景,本身就是一种进步。
两个版本,性能差距有点大
Cosmos 3 推出了两个型号:
Cosmos 3 Nano,16B参数,针对消费级硬件优化。可以在 RTX PRO 6000 这类专业工作站显卡上跑起来,适合实时机器人推理这类延迟敏感的场景。
Cosmos 3 Super,64B参数,追求最大性能。需要在数据中心级 GPU 上跑,比如 H100 或 Blackwell 系列,适合大规模合成数据生成。
64B 对硬件的要求确实不低——有用户在评论区吐槽自己的"万元工作站"可能还不够格。这倒不是英伟达故意为难人,而是这种规模的模型确实需要足够的算力支撑。
榜单成绩看起来不错
英伟达给出了不少 benchmark 结果,看起来挺能打:
- VANTAGE-Bench(视觉语言模型评测):Cosmos 3 Super 在 32B 档位排第一,Nano 在 8B 档位排第一
- 图像生成和视频生成:在 Artificial Analysis 平台的开源模型里排名第一
- 物理AI综合评测(PAI-Bench)、机器人视频生成(R-Bench)、物理IQ测试(Physics-IQ):都是开源SOTA
但这里有个细节值得注意——英伟达专门提了 HUE(人类评估)框架,理由是"现有自动化榜单太卷,分数差距太小,没法有效区分模型优劣"。
说白了就是:模型能力越来越接近,机器打分已经不够可靠了,得靠人来看。
这个解释挺诚实,也暗示了 benchmark 和真实使用之间可能存在的gap。
生成效果能打几分?
老实说,看了这些示例视频,我个人的观感是"能看出是AI生成的"。
仓库场景里的人物动作有些僵硬,自动驾驶场景的光影偶尔有不自然的地方。但另一方面,多米诺骨牌倒塌、球体碰撞这些物理模拟确实符合直觉。
有个评论说得很直接:"他们选的这些例子不怎么样,一堆烂游戏引擎和AI味的混合物。"这话听着刺耳,但也不是没道理。技术发布总得拿最好的case出来秀肌肉,评论区挑刺的声音恰恰说明用户期望值已经被抬得很高了。
话说回来,这些视频是用来训练AI的,不是给人类看的。生成数据的关键是"物理上正确",不是"看起来舒服"。从这个角度说,只要规则是对的,视觉差一点也能接受。
NIM部署:降低门槛但还是有门槛
Cosmos 3 现在可以通过 NVIDIA NIM 微服务部署,官方提供了优化好的推理容器,支持 BF16、FP8、NVFP4 三种量化模式。最激进的 NVFP4 4位量化能把推理速度提升2倍。
一句话总结:英伟达在努力让这玩意用起来更容易,但想本地跑 Super 版本,一台高性能 GPU 是少不了的。
物理AI的元年,可能要来了
英伟达在 Cosmos 3 上押的注很明确:让AI真正"理解"物理世界,而不是靠蛮力拟合。
双塔架构把"理解"和"生成"打通,开源生态降低了入局门槛,六大数据集覆盖了机器人、自动驾驶、仓储等核心场景——这套组合拳打出来,至少在纸面上是完整的。
当然,生成质量、实际部署成本、能否真正帮到下游开发者,这些都需要时间验证。
但有一点可以确定:AI正在从"看得见像素"进化到"看懂因果关系"。这条路一旦走通,机器人和自动驾驶能到达的高度,远比现在能想象的要高。
【锐评】:英伟达开源物理世界模型,但"人不会躲"的视频说明——AI离真正理解物理还差得远,路是对的,步子还得慢慢迈。
参考链接:
https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3/