1500万参数,单张显卡,干翻了大模型?

这个世界模型的故事,要从Yann LeCun的"执念"说起。

JEPA(Joint Embedding Predictive Architecture),图灵奖得主LeCun押注的下一代AI架构,理论上能让机器像人类一样在脑子里"想象"未来。但过去几年,这个架构有个尴尬的潜规则:想让它不崩溃,你得会耍花招

指数移动平均(EMA)、停止梯度(stop-grad)、预训练编码器、复杂的多项损失函数... 就像一台精密的瑞士手表,必须同时调整六个旋钮才能正常运转。稍微手滑,模型就崩了。

直到昨天,**LeWorldModel(LeWM)**诞生了。

扔掉花招,只要两行代码

image

研究团队来自FAIR(Meta的基础AI研究院),核心就俩人:Lucas Maes和Quentin Le Lidec,外加LeCun挂名支持。

他们的做法堪称"叛逆"——把JEPA简化到极致

没有EMA,没有预训练,没有六重损失函数。只有两个东西:

  1. 一个预测损失(MSE)
  2. 一个叫SIGReg的高斯正则化项

image

就这么简单。用作者的话说:"What you see is what you get"(所见即所得)。

以前的JEPA像是个娇贵的盆景,需要各种支架和铁丝固定。LeWM则是野草,扔土里自己长。

这种极简主义带来的第一个好处是稳定。端到端训练,从原始像素直接学,不需要任何启发式技巧(heuristics)来防止表征崩溃。

48倍速杀疯了

但真正的暴击在速度上。

LeWM把每一帧图像压缩成一个192维的token。相比之下,基于DINOv2的DINO-WM用了差不多200倍的token量

这意味着什么?

在规划任务中,LeWM完成一次完整规划只需要不到1秒。而DINO-WM需要47秒

48倍的速度差。

image

更离谱的是参数规模:LeWM只有1500万参数,单张GPU几小时就能训完。而DINO-WM背后的大模型用了1.24亿张图像预训练。

小钢炮干翻了重型坦克。

在Push-T(推方块)任务中,LeWM甚至完成了一个看似不可能的战绩:纯视觉输入的表现,超过了使用额外本体感受信息的DINO-WM

image

当然,在复杂的3D任务(OGBench-Cube)上,大模型预训练的优势还在。但LeWM已经把差距拉得很小。

它真的"理解"物理吗?

世界模型不只是预测像素变化,它得懂物理规则。

研究团队做了个有趣的测试:Violation-of-Expectation(违反预期)。给模型看一些"反物理"的画面——比如方块突然瞬移、颜色突变——看模型会不会感到"惊讶"(surprise值升高)。

结果LeWM确实能识别这些物理异常。在Push-T和Cube环境中,它对正常物理事件的预测置信度高,对魔法般的事件预测误差大。

image

更妙的是t-SNE可视化。当把Push-T环境中的智能体和方块位置编码后, latent space居然自发保留了空间邻接关系。没用任何显式的结构约束,纯粹从目标函数里涌现出来的几何感。

image

简单性的胜利

LeWM的意义不只是又刷了个SOTA。

它证明了一件事:我们可能把世界模型想复杂了。不需要 foundation model 的预训练知识,不需要六重损失函数的精心调参,不需要各种防止崩溃的"技巧"。

一个简洁的正则化项(SIGReg),端到端训练,就能学到紧凑而有物理意义的表征。

这有点反直觉。过去几年,AI界迷信"大力出奇迹"——参数越多,数据越多,预训练越重,效果越好。LeWM像个清醒的提醒:架构设计的优雅,有时比算力堆叠更致命

image

当然,它还有局限。在两房间导航(Two-Room)任务上表现一般,作者猜测是因为任务内在维度太低,高斯正则化反而限制了空间结构的学习。

但瑕不掩瑜。当1500万参数的模型能在单卡上实时规划,而十亿参数的大模型还在慢动作推理时,效率本身就是一种智能

世界模型的未来,也许不属于那些最庞大的模型,而属于那些最会"偷懒"的模型。

毕竟,人类大脑也不是靠暴力计算来想象未来的,对吧?

【kimi-k2.5锐评】:当整个行业都在卷参数量时,有人用极简主义证明了架构设计的本质价值——快不是目的,优雅才是。

参考链接:
https://x.com/lucasmaes_/status/2036080584569618741