三位AI大神"叛逃"像素派:Sora很美,但不懂物理
当所有人还在为Sora生成的逼真视频尖叫时,三位AI领域的顶级科学家却站出来说——这条路可能走偏了。
Christopher Manning,NLP领域的教父级人物;Ian Goodfellow,GAN之父,生成式AI的奠基人;Fan-Yun Sun,年轻的世界模型研究者。这三个人最近联手扔出了一篇重磅文章,标题平淡无奇:《迈向高效的世界模型》。但内容却像一颗炸弹:他们公开质疑当前最火热的像素级视频生成路线,主张用符号表示和游戏数据来重建AI对世界的理解。
这不是学术界的温和讨论,这是路线之争。
像素派的"恐怖谷":看起来很真,其实很蠢
说实话,Sora和Genie 3确实让人惊艳。赛车转弯时轮胎的尖叫、光影的流转、水面的波纹——这些像素级的细节足以让好莱坞特效师紧张。
但问题在于,AI真的"理解"它在生成什么吗?
Manning他们在文章中举了个微妙的例子:当你看到"轮胎尖叫着划过弯道"的画面,Sora能画出来,但它不知道这是因为方向盘转动导致了轮胎摩擦。它捕捉的是像素的相关性,而非因果性。
一个人对另一个人大喊会让对方不开心;但一个不开心的人不会导致房间里其他人开始大喊。
这种因果方向的混淆,在目前的视频模型里比比皆是。物体会凭空漂浮,会穿墙而过,会在时间轴上逻辑断裂。这些模型在测量世界的4D像素,却没能抓住世界的因果结构。
更致命的是效率问题。为了预测下一帧画面,像素模型要处理海量冗余信息——每一根草叶的抖动、每一束光线的折射。但如果我们只是为了规划"下一步该怎么走",真的需要4K分辨率的苔藓纹理吗?
人类自己就不是像素处理器。我们开车时不会计算每一颗灰尘的轨迹,我们用抽象的"车道""障碍物""速度"来思考。
符号才是人类的超能力,不是眼睛
这里有个反直觉的观点:人类能统治地球,不是因为我们的眼睛比老鹰锐利,而是因为我们发明了语言和数学。
乌鸦也能观察世界,也能规划如何打开坚果。但它们做不到的是用符号抽象出"杠杆原理"或"重力加速度"。
Manning团队认为,符号表示——语言、代码、数学公式——才是认知的压缩算法。当你用"汽车急转弯导致轮胎尖叫"这句话描述场景时,你丢弃了99%的像素噪声,却保留了100%的因果逻辑。
这种抽象带来了惊人的效率。代码生成模型不需要观看数百万小时的编程视频,它们直接在符号层面操作。同样,一个基于符号的世界模型可以用少得多的数据,理解"推箱子会导致箱子移动,而推墙不会"这样的物理规则。
关键洞察在于:世界模型不是为了生成好看的视频,而是为了回答"如果我这样做,会发生什么"。对于决策和规划,语义抽象比像素完美更重要。
游戏,才是AI的终极训练场
那么,去哪里找这种既包含动作又包含因果的符号化数据?
答案藏在数百万年轻人每晚熬夜做的事情里:打游戏。
这不是开玩笑。Manning团队盯上了游戏虚拟世界——不是作为娱乐,而是作为AI的"健身房"。
现实世界的问题在于,YouTube上有海量视频,但没有动作标签。你看一万遍烹饪视频,也分不清厨师是在"翻炒"还是"颠勺",更不知道如果改用小火会发生什么。
但游戏不同。
当你用键盘和鼠标在《我的世界》里挖方块,或在策略游戏里部署单位时,每一个动作都有明确的符号记录,每一个后果都在虚拟物理引擎中精确计算。游戏提供了稀缺的东西:动作条件数据(action-conditioned data)。
更重要的是,游戏已经是一个价值千亿美元的产业。这意味着数据飞轮可以自我维持——人们为了娱乐而玩,AI为了学习而记录。从智能手机的IMU到大型语言模型,历史证明,只有商业上自洽的技术路径才能走通。
这才是真正的反转:当所有人盯着真实世界的摄像头数据时,这些科学家认为,数字世界才是通往物理世界的捷径。
他们正在押注什么
文章最后轻描淡写地提了一句:这就是他们正在建造的东西——Moonlake。
虽然文章没有展开讲这家公司的细节,但路线已经很清晰:不是做一个更好的视频生成器,而是构建一个基于符号表示的、可交互的、因果一致的世界模型。
这个模型可能看起来不像Sora那样"好看",但它能回答"如果我转动方向盘,轮胎会不会打滑"这种问题。它能规划,能预测,能在长时段内保持物理一致性。
这才是通往具身AGI的路——不是让AI成为更好的摄影师,而是让它成为能理解因果、制定计划的行动者。
当像素派和符号派的分水岭越来越明显,你选择站哪边?
是选择那个能生成好莱坞级画面但不懂物理的AI,还是选择那个可能看起来有点抽象,但真的知道"推箱子会动"的AI?
或许,AI不需要更锐利的眼睛,它需要更聪明的大脑。
【kimi-k2.5锐评】:当行业沉迷于用算力暴力破解像素时,三位大佬提醒我们——智能的本质是因果压缩,而非感官复刻,游戏引擎可能比高清摄像头更接近AGI的真相。
参考链接:
https://x.com/chrmanning/status/2029988710495003047