AI 圈子里最让人抓狂的是什么?

不是显卡不够贵,也不是数据不够多,而是“炼金术”。

为了训练一个靠谱的自监督模型,工程师们不得不祭出一堆“玄学”参数:Stop-gradient(停止梯度)、EMA(指数移动平均)调度、不对称视图生成……这些招数就像老中医的偏方,虽然管用,但没人说得清为什么,换一个数据集可能就全废了。

这种靠“拍脑袋”和“试错”堆出来的 AI,真的能通向通用人工智能吗?

就在昨天,传奇程序员、Oculus 创始人 John Carmack 发推,点名表扬了一篇新论文。

这篇论文不仅敢说“前人的研究都是 ad-hoc(凑合的)”,还直接扔出了一套数学证明,声称要彻底干掉那些繁琐的启发式规则

它叫 LeJEPA

告别“玄学”,只要一个参数

现在的自监督学习(SSL)圈子,有点像堆乐高。

为了防止模型“偷懒”——也就是把所有不同的输入都映射成同一个输出(所谓的表征崩溃,Representation Collapse),大家给模型加了各种补丁。

这些补丁就是“启发式规则”。

论文作者毫不客气地指出:这种做法太脆弱了。现在的 SOTA 模型之所以能跑通,全靠工程师精心微调的这些“拐杖”。

LeJEPA 的出现,就是要扔掉这些拐杖。

它提出了两个公理:

  1. 解决预测任务;
  2. 强制嵌入分布服从各向同性高斯分布

听起来很绕?简单说,就是用数学证明了:要让模型在下游任务表现最好,它的特征空间分布必须是均匀的球形。

为了实现这个目标,他们搞出了一个叫 SIGReg(草图各向同性高斯正则化) 的东西。

这玩意儿厉害在哪?
它不需要复杂的教师网络,不需要精心调参的 EMA,只需要一个超参数——用来平衡预测损失和正则化损失的权重。

这就是 Carmack 推文里说的那句:“without the heuristics”(没有启发式规则)。

小数据吊打大模型?

这篇论文最狠的结论,不是理论有多漂亮,而是它直接挑战了现在的“大力出奇迹”流派。

现在的行业共识是:你想解决某个特定领域的问题(比如医学影像或天文观测),最好去拿一个在海量通用数据(如 ImageNet)上预训练好的大模型,然后做迁移学习。

但 LeJEPA 的数据告诉我们要换个思路了。

在 Galaxy10(星系分类)和 Food101(食物分类)这些特定领域数据集上,LeJEPA 直接在目标数据集上从头训练(In-domain pretraining),结果吊打了那些在自然图像上训练出来的 SOTA 基础模型(如 DINOv2/v3)。

哪怕是只有 1000 个样本的小数据集,LeJEPA 也能跑赢那些动辄几十亿参数的通用大模型。

这传递了一个非常强烈的信号:如果你的框架足够优雅、理论足够扎实,你根本不需要去“借用”通用的世界知识。

在自己的一亩三分地上深耕,比迷信外来的和尚好使。

代码只有 50 行,但名字有点“名不副实”?

Carmack 在推文里提到了一个有趣的细节。

虽然名字叫 JEPA(Joint-Embedding Predictive Architectures,联合嵌入预测架构),但 LeJEPA 根本没用预测器网络

它只是直接比较不同视图的嵌入。

这就引发了评论区的大神 @kutsch_d 的吐槽:“这其实是个 JEA,不是 JEPA。”

不管名字是不是搞错了,但效果是实打实的。

论文里展示的代码块清晰明了,不像那些满篇希腊字母的“天书”。作者甚至在 GitHub 上放出了源码,声称核心逻辑极其精简。

这种“工程友好”的态度,显然对极了 Carmack 的胃口。

暗中的隐忧

当然,这也不是完美的乌托邦。

Carmack 依然抛出了他标志性的犀利疑问:

如果嵌入分布被强制变成了各向同性高斯(就像完美的气体),那么当模型遇到训练集之外的新奇输入时,会发生什么?

它会生成独特的编码,还是会把这些新东西强行折叠到旧的编码里?

在连续学习的环境中,这种分布约束会不会导致“语义漂移”?

还有评论指出,JEPA 这种方法本质上是在“丢弃不相关数据”。这固然能得到干净的世界模型,但也意味着它只能解决特定问题。想换个问题?你可能得重新训练一整套模型。

炼金术正在变成科学

不管怎么说,LeJEPA 的出现让人兴奋。

它让我们看到,AI 研究正在从“炼金术”向“科学”演进。

当我们不再依赖那些说不清道不明的“trick”,而是用坚实的数学理论来指导模型设计时,通用人工智能的基石才算真正打牢了。

正如一位网友在评论里所说:“‘没有启发式规则’是工程学中最令人满足的短语。我们靠机器学习炼金术混太久了。”

或许,这就是 AI 下一个时代的开始:少一点玄学,多一点数学。

参考链接:
https://x.com/ID_AA_Carmack/status/2014883608037556431