当图灵奖得主被指控"抄袭":JEPA背后的三十年恩怨
三十年前的代码,正在杀死今天的创业神话。
2026年3月31日,Jürgen Schmidhuber发了一条推文。没有表情符号,没有讽刺,只有冷冰冰的文献编号和一句断言:Yann LeCun的JEPA,就是我在1992年发表的PMAX。
这条推文像一颗深水炸弹。因为被指控的不是无名小卒,而是Meta首席AI科学家、2018年图灵奖得主、深度学习三巨头之一的Yann LeCun。而指控者Schmidhuber,同样是LSTM之父、深度学习奠基人之一。
更尴尬的是时间点——LeCun刚在2025年成立了新公司AMI,估值 presumably 不菲,核心技术正是JEPA。而Schmidhuber说:"这公司的卖点,是我30年前玩剩下的。"
技术溯源:PMAX与JEPA的"双胞胎"疑云
让我们看看Schmidhuber扔出了什么硬核证据。
1992年,他发表了PMAX(Predictability Maximization)系统。核心架构是:两个非生成式神经网络,一个创建关于自身输入的潜在表示,另一个学习从自己的潜在空间预测第一个网络的表示——同时防止"崩溃"(collapse)。
2022年,LeCun提出JEPA(Joint Embedding Predictive Architecture)。核心思想是:学习从一种输入的表征预测另一种相关输入的表征,在潜在空间做预测而非生成像素。
Schmidhuber贴出了1992年论文的截图。在《Discovering Predictable Classifications》中,他详细描述了自动编码器、潜在空间预测、对称与非对称网络结构。他甚至提到了"防止表示过于通用"——这正是今天JEPA论文里大书特书的"防止崩溃"。
"PMAX实际上是一整个方法家族。最简单的实例:一个自动编码器网络看到输入并在隐藏单元中表示它(即潜在空间)。另一个网络看到不同但相关的输入,并学习预测(从它自己的潜在空间)自动编码器的潜在表示。"
最有力的背书来自BYOL团队负责人Michal Valko。2026年,他公开赞扬PMAX:"令人震惊的是,PMAX作为原型自监督学习/对比学习框架,比SimCLR、BYOL、Barlow Twins早了25-30年。它没被充分赞扬真是令人震惊。"
Valko甚至列出了"罪证清单":Barlow Twins的互相关惩罚对应PMAX的2.3节,VICReg的方差铰链对应PMAX的2.1节,I-JEPA只是去掉了PMAX的判别项并改用EMA停止梯度...
换句话说,今天的JEPA家族,可能只是PMAX的注释版。
这不是第一次:"深度学习之父"的原创性危机
但故事真正炸裂的部分,在于Schmidhuber的"翻旧账"。
他在推文中冷冷地列出:LeCun没有"共同发明深度学习",没有发明卷积神经网络(CNN),甚至不是第一个将CNN与反向传播结合的人。而那些颁给LeCun的奖项,本应属于那些未被引用的研究者。
他提到2024年LeCun对Gary Marcus的嘲讽——当时Marcus说LLM不足以实现AGI,LeCun公开 derided(嘲笑)他。但Schmidhuber指出:"这 obvious to experts"(对专家来说显而易见),而且LeCun现在推销的"世界模型"概念,Schmidhuber在1990年就提出了。
最扎心的是关于LeCun新公司AMI的指控。Schmidhuber说,这家2025年成立、基于JEPA做物理世界AI的公司,"明显模仿了我们2014年的公司NNAISENSE"——那家公司同样基于神经世界模型做物理世界的AGI。
"三十年前的计算成本高了一百万倍,但JEPA的基本洞见已经存在。LeCun只是重新包装了旧想法,没有引用它们。"
罗生门:独立发现还是学术失范?
当然,故事还有另一面。
在推文评论区,有用户指出JEPA包含"规划"步骤——在世界模型参数固定的情况下选择最优动作,这不仅仅是预测潜在表示。也有人认为,"概念重叠"不等于"本质相同",PMAX和JEPA在具体实现和目标函数上有差异。
但Schmidhuber的回应很直接:"你把JEPA和H-JEPA搞混了。H-JEPA只是几个JEPA/PMAX的堆叠。"
这触及了AI研究的一个灰色地带。在神经网络领域,"独立发现"和"想法重包装"的界限极其模糊。1992年的PMAX确实发表在Neural Computation上,但当时的计算资源根本无法让它产生今天的影响力。而LeCun在2022年的论文中确实没有引用PMAX。
是故意忽略?还是真的不知道?抑或认为两者有本质区别?
Schmidhuber引用了一篇Nature文章的观点:"聪明的抄袭者最危险——他们用不同的话改写之前的发现,故意隐藏想法来源,然后在随后的年份里强力声称自己发现了新现象。"
谁该被记住?
这场争论最讽刺的结尾,藏在Valko的评论里。
他说:"在研究中,提前30年正确和错误看起来完全一样,直到计算能力追上。"
PMAX在1992年只能处理简单的立体视觉任务,而今天的JEPA可以处理视频、语言、多模态数据。但架构的 DNA 是否相同?这不仅是学术诚信问题,更是AI历史的重写权问题。
当LeCun在2025年拿着JEPA去融资时,他是否知道(或应该知道)1992年那篇论文?当投资者为"世界模型"这个概念买单时,他们是否知道这个概念在Schmidhuber的实验室里已经存在了34年?
Schmidhuber在文末淡淡地补了一刀:"虽然内行都知道LLM不足以实现AGI,但JEPA同样不足以实现AGI。我们当然知道——我们以PMAX的名义拥有它已经超过30年了。"
历史不会重复,但它确实会押韵。只是这次,押的是三十年的韵脚。
当今天的AI创业者们兴奋地谈论"世界模型"和"潜在空间预测"时,有人应该告诉他们:这些想法在冷战结束那年就已经存在了,只是那时候,连Windows 3.1都还没发布。
【kimi-k2.5锐评】:学术界的"优先权战争"往往比技术本身更持久,当30年前的论文成为狙击当下顶流的子弹,我们不得不问——到底是创新停滞了,还是记忆太短了?
参考链接:
https://x.com/SchmidhuberAI/status/2038989707917271210