AI 圈子里最让人抓狂的是什么?
不是显卡不够贵,也不是数据不够多,而是“炼金术”。
为了训练一个靠谱的自监督模型,工程师们不得不祭出一堆“玄学”参数:Stop-gradient(停止梯度)、EMA(指数移动平均)调度、不对称视图生成……这些招数就像老中医的偏方,虽然管用,但没人说得清为什么,换一个数据集可能就全废了。
这种靠“拍脑袋”和“试错”堆出来的 AI,真的能通向通用人工智能吗?
就在昨天,传奇程序员、Oculus 创始人 John Carmack 发推,点名表扬了一篇新论文。
这篇论文不仅敢说“前人的研究都是 ad-hoc(凑合的)”,还直接扔出了一套数学证明,声称要彻底干掉那些繁琐的启发式规则。
它叫 LeJEPA。
告别“玄学”,只要一个参数
现在的自监督学习(SSL)圈子,有点像堆乐高。
为了防止模型“偷懒”——也就是把所有不同的输入都映射成同一个输出(所谓的表征崩溃,Representation Collapse),大家给模型加了各种补丁。
这些补丁就是“启发式规则”。
论文作者毫不客气地指出:这种做法太脆弱了。现在的 SOTA 模型之所以能跑通,全靠工程师精心微调的这些“拐杖”。
LeJEPA 的出现,就是要扔掉这些拐杖。
它提出了两个公理:
- 解决预测任务;
- 强制嵌入分布服从各向同性高斯分布。
听起来很绕?简单说,就是用数学证明了:要让模型在下游任务表现最好,它的特征空间分布必须是均匀的球形。
为了实现这个目标,他们搞出了一个叫 SIGReg(草图各向同性高斯正则化) 的东西。
这玩意儿厉害在哪?
它不需要复杂的教师网络,不需要精心调参的 EMA,只需要一个超参数——用来平衡预测损失和正则化损失的权重。
这就是 Carmack 推文里说的那句:“without the heuristics”(没有启发式规则)。
小数据吊打大模型?
这篇论文最狠的结论,不是理论有多漂亮,而是它直接挑战了现在的“大力出奇迹”流派。
现在的行业共识是:你想解决某个特定领域的问题(比如医学影像或天文观测),最好去拿一个在海量通用数据(如 ImageNet)上预训练好的大模型,然后做迁移学习。
但 LeJEPA 的数据告诉我们要换个思路了。
在 Galaxy10(星系分类)和 Food101(食物分类)这些特定领域数据集上,LeJEPA 直接在目标数据集上从头训练(In-domain pretraining),结果吊打了那些在自然图像上训练出来的 SOTA 基础模型(如 DINOv2/v3)。
哪怕是只有 1000 个样本的小数据集,LeJEPA 也能跑赢那些动辄几十亿参数的通用大模型。
这传递了一个非常强烈的信号:如果你的框架足够优雅、理论足够扎实,你根本不需要去“借用”通用的世界知识。
在自己的一亩三分地上深耕,比迷信外来的和尚好使。
代码只有 50 行,但名字有点“名不副实”?
Carmack 在推文里提到了一个有趣的细节。
虽然名字叫 JEPA(Joint-Embedding Predictive Architectures,联合嵌入预测架构),但 LeJEPA 根本没用预测器网络。
它只是直接比较不同视图的嵌入。
这就引发了评论区的大神 @kutsch_d 的吐槽:“这其实是个 JEA,不是 JEPA。”
不管名字是不是搞错了,但效果是实打实的。
论文里展示的代码块清晰明了,不像那些满篇希腊字母的“天书”。作者甚至在 GitHub 上放出了源码,声称核心逻辑极其精简。
这种“工程友好”的态度,显然对极了 Carmack 的胃口。
暗中的隐忧
当然,这也不是完美的乌托邦。
Carmack 依然抛出了他标志性的犀利疑问:
如果嵌入分布被强制变成了各向同性高斯(就像完美的气体),那么当模型遇到训练集之外的新奇输入时,会发生什么?
它会生成独特的编码,还是会把这些新东西强行折叠到旧的编码里?
在连续学习的环境中,这种分布约束会不会导致“语义漂移”?
还有评论指出,JEPA 这种方法本质上是在“丢弃不相关数据”。这固然能得到干净的世界模型,但也意味着它只能解决特定问题。想换个问题?你可能得重新训练一整套模型。
炼金术正在变成科学
不管怎么说,LeJEPA 的出现让人兴奋。
它让我们看到,AI 研究正在从“炼金术”向“科学”演进。
当我们不再依赖那些说不清道不明的“trick”,而是用坚实的数学理论来指导模型设计时,通用人工智能的基石才算真正打牢了。
正如一位网友在评论里所说:“‘没有启发式规则’是工程学中最令人满足的短语。我们靠机器学习炼金术混太久了。”
或许,这就是 AI 下一个时代的开始:少一点玄学,多一点数学。
参考链接:
https://x.com/ID_AA_Carmack/status/2014883608037556431