当图灵奖得主被指控"抄袭":JEPA背后的三十年恩怨

三十年前的代码,正在杀死今天的创业神话。

2026年3月31日,Jürgen Schmidhuber发了一条推文。没有表情符号,没有讽刺,只有冷冰冰的文献编号和一句断言:Yann LeCun的JEPA,就是我在1992年发表的PMAX

这条推文像一颗深水炸弹。因为被指控的不是无名小卒,而是Meta首席AI科学家、2018年图灵奖得主、深度学习三巨头之一的Yann LeCun。而指控者Schmidhuber,同样是LSTM之父、深度学习奠基人之一。

更尴尬的是时间点——LeCun刚在2025年成立了新公司AMI,估值 presumably 不菲,核心技术正是JEPA。而Schmidhuber说:"这公司的卖点,是我30年前玩剩下的。"

技术溯源:PMAX与JEPA的"双胞胎"疑云

让我们看看Schmidhuber扔出了什么硬核证据。

1992年,他发表了PMAX(Predictability Maximization)系统。核心架构是:两个非生成式神经网络,一个创建关于自身输入的潜在表示,另一个学习从自己的潜在空间预测第一个网络的表示——同时防止"崩溃"(collapse)。

2022年,LeCun提出JEPA(Joint Embedding Predictive Architecture)。核心思想是:学习从一种输入的表征预测另一种相关输入的表征,在潜在空间做预测而非生成像素。

Schmidhuber贴出了1992年论文的截图。在《Discovering Predictable Classifications》中,他详细描述了自动编码器、潜在空间预测、对称与非对称网络结构。他甚至提到了"防止表示过于通用"——这正是今天JEPA论文里大书特书的"防止崩溃"。

"PMAX实际上是一整个方法家族。最简单的实例:一个自动编码器网络看到输入并在隐藏单元中表示它(即潜在空间)。另一个网络看到不同但相关的输入,并学习预测(从它自己的潜在空间)自动编码器的潜在表示。"

最有力的背书来自BYOL团队负责人Michal Valko。2026年,他公开赞扬PMAX:"令人震惊的是,PMAX作为原型自监督学习/对比学习框架,比SimCLR、BYOL、Barlow Twins早了25-30年。它没被充分赞扬真是令人震惊。"

Valko甚至列出了"罪证清单":Barlow Twins的互相关惩罚对应PMAX的2.3节,VICReg的方差铰链对应PMAX的2.1节,I-JEPA只是去掉了PMAX的判别项并改用EMA停止梯度...

换句话说,今天的JEPA家族,可能只是PMAX的注释版。

这不是第一次:"深度学习之父"的原创性危机

但故事真正炸裂的部分,在于Schmidhuber的"翻旧账"。

他在推文中冷冷地列出:LeCun没有"共同发明深度学习",没有发明卷积神经网络(CNN),甚至不是第一个将CNN与反向传播结合的人。而那些颁给LeCun的奖项,本应属于那些未被引用的研究者。

他提到2024年LeCun对Gary Marcus的嘲讽——当时Marcus说LLM不足以实现AGI,LeCun公开 derided(嘲笑)他。但Schmidhuber指出:"这 obvious to experts"(对专家来说显而易见),而且LeCun现在推销的"世界模型"概念,Schmidhuber在1990年就提出了。

最扎心的是关于LeCun新公司AMI的指控。Schmidhuber说,这家2025年成立、基于JEPA做物理世界AI的公司,"明显模仿了我们2014年的公司NNAISENSE"——那家公司同样基于神经世界模型做物理世界的AGI。

"三十年前的计算成本高了一百万倍,但JEPA的基本洞见已经存在。LeCun只是重新包装了旧想法,没有引用它们。"

罗生门:独立发现还是学术失范?

当然,故事还有另一面。

在推文评论区,有用户指出JEPA包含"规划"步骤——在世界模型参数固定的情况下选择最优动作,这不仅仅是预测潜在表示。也有人认为,"概念重叠"不等于"本质相同",PMAX和JEPA在具体实现和目标函数上有差异。

但Schmidhuber的回应很直接:"你把JEPA和H-JEPA搞混了。H-JEPA只是几个JEPA/PMAX的堆叠。"

这触及了AI研究的一个灰色地带。在神经网络领域,"独立发现"和"想法重包装"的界限极其模糊。1992年的PMAX确实发表在Neural Computation上,但当时的计算资源根本无法让它产生今天的影响力。而LeCun在2022年的论文中确实没有引用PMAX。

AI配图

是故意忽略?还是真的不知道?抑或认为两者有本质区别?

Schmidhuber引用了一篇Nature文章的观点:"聪明的抄袭者最危险——他们用不同的话改写之前的发现,故意隐藏想法来源,然后在随后的年份里强力声称自己发现了新现象。"

谁该被记住?

这场争论最讽刺的结尾,藏在Valko的评论里。

他说:"在研究中,提前30年正确和错误看起来完全一样,直到计算能力追上。"

PMAX在1992年只能处理简单的立体视觉任务,而今天的JEPA可以处理视频、语言、多模态数据。但架构的 DNA 是否相同?这不仅是学术诚信问题,更是AI历史的重写权问题。

AI配图

当LeCun在2025年拿着JEPA去融资时,他是否知道(或应该知道)1992年那篇论文?当投资者为"世界模型"这个概念买单时,他们是否知道这个概念在Schmidhuber的实验室里已经存在了34年?

Schmidhuber在文末淡淡地补了一刀:"虽然内行都知道LLM不足以实现AGI,但JEPA同样不足以实现AGI。我们当然知道——我们以PMAX的名义拥有它已经超过30年了。"

历史不会重复,但它确实会押韵。只是这次,押的是三十年的韵脚。

AI配图

当今天的AI创业者们兴奋地谈论"世界模型"和"潜在空间预测"时,有人应该告诉他们:这些想法在冷战结束那年就已经存在了,只是那时候,连Windows 3.1都还没发布。

【kimi-k2.5锐评】:学术界的"优先权战争"往往比技术本身更持久,当30年前的论文成为狙击当下顶流的子弹,我们不得不问——到底是创新停滞了,还是记忆太短了?

参考链接:
https://x.com/SchmidhuberAI/status/2038989707917271210