LeCun的模型成了？首个端到端训练的JEPA世界模型，15M参数单卡干翻大模型

1500万参数，单张显卡，干翻了大模型？

这个世界模型的故事，要从Yann LeCun的"执念"说起。

JEPA（Joint Embedding Predictive Architecture），图灵奖得主LeCun押注的下一代AI架构，理论上能让机器像人类一样在脑子里"想象"未来。但过去几年，这个架构有个尴尬的潜规则：想让它不崩溃，你得会耍花招。

指数移动平均（EMA）、停止梯度（stop-grad）、预训练编码器、复杂的多项损失函数... 就像一台精密的瑞士手表，必须同时调整六个旋钮才能正常运转。稍微手滑，模型就崩了。

直到昨天，**LeWorldModel（LeWM）**诞生了。

扔掉花招，只要两行代码

研究团队来自FAIR（Meta的基础AI研究院），核心就俩人：Lucas Maes和Quentin Le Lidec，外加LeCun挂名支持。

他们的做法堪称"叛逆"——把JEPA简化到极致。

没有EMA，没有预训练，没有六重损失函数。只有两个东西：

就这么简单。用作者的话说："What you see is what you get"（所见即所得）。

以前的JEPA像是个娇贵的盆景，需要各种支架和铁丝固定。LeWM则是野草，扔土里自己长。

这种极简主义带来的第一个好处是稳定。端到端训练，从原始像素直接学，不需要任何启发式技巧（heuristics）来防止表征崩溃。

但真正的暴击在速度上。

LeWM把每一帧图像压缩成一个192维的token。相比之下，基于DINOv2的DINO-WM用了差不多200倍的token量。

这意味着什么？

在规划任务中，LeWM完成一次完整规划只需要不到1秒。而DINO-WM需要47秒。

48倍的速度差。

更离谱的是参数规模：LeWM只有1500万参数，单张GPU几小时就能训完。而DINO-WM背后的大模型用了1.24亿张图像预训练。

小钢炮干翻了重型坦克。

在Push-T（推方块）任务中，LeWM甚至完成了一个看似不可能的战绩：纯视觉输入的表现，超过了使用额外本体感受信息的DINO-WM。

当然，在复杂的3D任务（OGBench-Cube）上，大模型预训练的优势还在。但LeWM已经把差距拉得很小。

世界模型不只是预测像素变化，它得懂物理规则。

研究团队做了个有趣的测试：Violation-of-Expectation（违反预期）。给模型看一些"反物理"的画面——比如方块突然瞬移、颜色突变——看模型会不会感到"惊讶"（surprise值升高）。

结果LeWM确实能识别这些物理异常。在Push-T和Cube环境中，它对正常物理事件的预测置信度高，对魔法般的事件预测误差大。

更妙的是t-SNE可视化。当把Push-T环境中的智能体和方块位置编码后， latent space居然自发保留了空间邻接关系。没用任何显式的结构约束，纯粹从目标函数里涌现出来的几何感。

LeWM的意义不只是又刷了个SOTA。

它证明了一件事：我们可能把世界模型想复杂了。不需要 foundation model 的预训练知识，不需要六重损失函数的精心调参，不需要各种防止崩溃的"技巧"。

一个简洁的正则化项（SIGReg），端到端训练，就能学到紧凑而有物理意义的表征。

这有点反直觉。过去几年，AI界迷信"大力出奇迹"——参数越多，数据越多，预训练越重，效果越好。LeWM像个清醒的提醒：架构设计的优雅，有时比算力堆叠更致命。

当然，它还有局限。在两房间导航（Two-Room）任务上表现一般，作者猜测是因为任务内在维度太低，高斯正则化反而限制了空间结构的学习。

但瑕不掩瑜。当1500万参数的模型能在单卡上实时规划，而十亿参数的大模型还在慢动作推理时，效率本身就是一种智能。

世界模型的未来，也许不属于那些最庞大的模型，而属于那些最会"偷懒"的模型。

毕竟，人类大脑也不是靠暴力计算来想象未来的，对吧？

【kimi-k2.5锐评】：当整个行业都在卷参数量时，有人用极简主义证明了架构设计的本质价值——快不是目的，优雅才是。

参考链接：
https://x.com/lucasmaes_/status/2036080584569618741