英伟达开源"世界模型"，AI开始理解物理世界了？

机器人走进仓库，不会绕开地上的箱子；自动驾驶汽车，遇到"鬼探头"就愣住——这类问题背后藏着一个根本缺陷：大多数AI压根不懂物理。

不是不会算，是真的不懂。

现在，英伟达掏出 Cosmos 3，想解决这个问题。

为什么AI"看得见"却"看不懂"

人类的眼睛不只是在接收像素，还在"理解"这些像素背后的物理规律。

球从手里松开，它会掉下去；杯子往桌边推，它会翻倒；前面那辆车突然刹车，驾驶员会减速而不是踩油门冲上去。

这种能力叫做"物理直觉"，婴儿在几秒钟内就能建立，但AI学了几十年还差点意思。

问题出在哪？

之前做物理AI的系统，通常需要三个组件：一个负责"看懂"世界的模型，一个负责"生成"场景的模型，还有一个负责"控制"行为的模型。三套系统各玩各的，协调起来跟让三个不同乐队一起演奏交响乐一样——除非你是天才指挥家，否则就是车祸现场。

英伟达这次说：我把它们捏成一个了。

双塔架构：先想后画

Cosmos 3 的核心是"双塔"架构，名字挺中二，但逻辑其实很直接。

第一个塔叫 Reasoner Tower——推理塔。它是个视觉语言模型，负责"看懂"输入的图像、视频、文本。它在生成之前先把物理关系理清楚：物体怎么运动的、它们之间什么关系、下一秒可能发生什么。这个塔相当于AI的"大脑"，先想清楚再动手。

第二个塔叫 Generator Tower——生成塔。它基于推理塔的理解，用扩散模型生成"物理上说得通"的视频和动作序列。扩散模型听起来玄乎，简单说就是从噪声开始，逐步"去噪"出一段符合物理规律的连续画面。推理塔喂给它什么理解，生成塔就出什么内容。

两个塔不是独立的——信息从推理塔单向流向生成塔，保证"想"和"画"是一致的。

架构图长这样：

Cosmos 3 architecture diagram

这个设计听起来简单，但它解决了一个很烦的问题：之前开发者需要在多个模型之间来回折腾，现在一个模型把活干了。

开源这件事，有点意思

英伟达这次不只是发布模型，还把训练脚本、部署工具、六大数据集全部开源了。

六个数据集分别是：

Embodied Robot Scenes——机器人操作场景，模拟机械臂抓取、移动物体的动作。

机器人操作示例

Physical Interaction Scenes——物理交互场景，撞球砸积木、多米诺骨牌倒下这类经典物理场景，每帧都有精确的物理标注。

物理交互示例

Spatial Reasoning——空间推理数据集。问机器人"咖啡桌离沙发多远"，或者"去书房最优路线怎么走"，考察它对三维空间关系的理解。

空间推理示例

Digital Human Scenes——数字人场景，各种环境下的人类动作模拟，用于训练机器人的社会感知能力——比如识别一个人正在朝某个方向走、是否要让路。

数字人场景

Autonomous Driving Scenarios——自动驾驶场景，覆盖晴天雨天、不同光照、换道避让行人这类真实驾驶行为。

自动驾驶场景

Warehouse Operations Scenes——仓库运营场景，包括叉车碰撞人、箱子跌落这类"安全事件"的模拟生成。

仓库运营场景

仓库安全这个例子挺有意思——视频里叉车撞人了，旁边的人完全没反应。评论区有人说"这AI生成的人连躲都不会躲"，老实讲，这种细节恰恰说明物理AI还有很长的路要走。但换个角度想，能生成"出事了"的场景，本身就是一种进步。

两个版本，性能差距有点大

Cosmos 3 推出了两个型号：

Cosmos 3 Nano，16B参数，针对消费级硬件优化。可以在 RTX PRO 6000 这类专业工作站显卡上跑起来，适合实时机器人推理这类延迟敏感的场景。

Cosmos 3 Super，64B参数，追求最大性能。需要在数据中心级 GPU 上跑，比如 H100 或 Blackwell 系列，适合大规模合成数据生成。

64B 对硬件的要求确实不低——有用户在评论区吐槽自己的"万元工作站"可能还不够格。这倒不是英伟达故意为难人，而是这种规模的模型确实需要足够的算力支撑。

榜单成绩看起来不错

英伟达给出了不少 benchmark 结果，看起来挺能打：

VANTAGE-Bench（视觉语言模型评测）：Cosmos 3 Super 在 32B 档位排第一，Nano 在 8B 档位排第一
图像生成和视频生成：在 Artificial Analysis 平台的开源模型里排名第一
物理AI综合评测（PAI-Bench）、机器人视频生成（R-Bench）、物理IQ测试（Physics-IQ）：都是开源SOTA

但这里有个细节值得注意——英伟达专门提了 HUE（人类评估）框架，理由是"现有自动化榜单太卷，分数差距太小，没法有效区分模型优劣"。

说白了就是：模型能力越来越接近，机器打分已经不够可靠了，得靠人来看。

这个解释挺诚实，也暗示了 benchmark 和真实使用之间可能存在的gap。

生成效果能打几分？

老实说，看了这些示例视频，我个人的观感是"能看出是AI生成的"。

仓库场景里的人物动作有些僵硬，自动驾驶场景的光影偶尔有不自然的地方。但另一方面，多米诺骨牌倒塌、球体碰撞这些物理模拟确实符合直觉。

有个评论说得很直接："他们选的这些例子不怎么样，一堆烂游戏引擎和AI味的混合物。"这话听着刺耳，但也不是没道理。技术发布总得拿最好的case出来秀肌肉，评论区挑刺的声音恰恰说明用户期望值已经被抬得很高了。

话说回来，这些视频是用来训练AI的，不是给人类看的。生成数据的关键是"物理上正确"，不是"看起来舒服"。从这个角度说，只要规则是对的，视觉差一点也能接受。

NIM部署：降低门槛但还是有门槛

Cosmos 3 现在可以通过 NVIDIA NIM 微服务部署，官方提供了优化好的推理容器，支持 BF16、FP8、NVFP4 三种量化模式。最激进的 NVFP4 4位量化能把推理速度提升2倍。

一句话总结：英伟达在努力让这玩意用起来更容易，但想本地跑 Super 版本，一台高性能 GPU 是少不了的。

物理AI的元年，可能要来了

英伟达在 Cosmos 3 上押的注很明确：让AI真正"理解"物理世界，而不是靠蛮力拟合。

双塔架构把"理解"和"生成"打通，开源生态降低了入局门槛，六大数据集覆盖了机器人、自动驾驶、仓储等核心场景——这套组合拳打出来，至少在纸面上是完整的。

当然，生成质量、实际部署成本、能否真正帮到下游开发者，这些都需要时间验证。

但有一点可以确定：AI正在从"看得见像素"进化到"看懂因果关系"。这条路一旦走通，机器人和自动驾驶能到达的高度，远比现在能想象的要高。

【锐评】：英伟达开源物理世界模型，但"人不会躲"的视频说明——AI离真正理解物理还差得远，路是对的，步子还得慢慢迈。

参考链接：
https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3/