Schmidhuber质疑LeCun的JEPA原创性：与1992年PMAX系统相同

当图灵奖得主被指控"抄袭"：JEPA背后的三十年恩怨

三十年前的代码，正在杀死今天的创业神话。

2026年3月31日，Jürgen Schmidhuber发了一条推文。没有表情符号，没有讽刺，只有冷冰冰的文献编号和一句断言：Yann LeCun的JEPA，就是我在1992年发表的PMAX。

这条推文像一颗深水炸弹。因为被指控的不是无名小卒，而是Meta首席AI科学家、2018年图灵奖得主、深度学习三巨头之一的Yann LeCun。而指控者Schmidhuber，同样是LSTM之父、深度学习奠基人之一。

更尴尬的是时间点——LeCun刚在2025年成立了新公司AMI，估值 presumably 不菲，核心技术正是JEPA。而Schmidhuber说："这公司的卖点，是我30年前玩剩下的。"

技术溯源：PMAX与JEPA的"双胞胎"疑云

让我们看看Schmidhuber扔出了什么硬核证据。

1992年，他发表了PMAX（Predictability Maximization）系统。核心架构是：两个非生成式神经网络，一个创建关于自身输入的潜在表示，另一个学习从自己的潜在空间预测第一个网络的表示——同时防止"崩溃"（collapse）。

2022年，LeCun提出JEPA（Joint Embedding Predictive Architecture）。核心思想是：学习从一种输入的表征预测另一种相关输入的表征，在潜在空间做预测而非生成像素。

Schmidhuber贴出了1992年论文的截图。在《Discovering Predictable Classifications》中，他详细描述了自动编码器、潜在空间预测、对称与非对称网络结构。他甚至提到了"防止表示过于通用"——这正是今天JEPA论文里大书特书的"防止崩溃"。

"PMAX实际上是一整个方法家族。最简单的实例：一个自动编码器网络看到输入并在隐藏单元中表示它（即潜在空间）。另一个网络看到不同但相关的输入，并学习预测（从它自己的潜在空间）自动编码器的潜在表示。"

最有力的背书来自BYOL团队负责人Michal Valko。2026年，他公开赞扬PMAX："令人震惊的是，PMAX作为原型自监督学习/对比学习框架，比SimCLR、BYOL、Barlow Twins早了25-30年。它没被充分赞扬真是令人震惊。"

Valko甚至列出了"罪证清单"：Barlow Twins的互相关惩罚对应PMAX的2.3节，VICReg的方差铰链对应PMAX的2.1节，I-JEPA只是去掉了PMAX的判别项并改用EMA停止梯度...

换句话说，今天的JEPA家族，可能只是PMAX的注释版。

这不是第一次："深度学习之父"的原创性危机

但故事真正炸裂的部分，在于Schmidhuber的"翻旧账"。

他在推文中冷冷地列出：LeCun没有"共同发明深度学习"，没有发明卷积神经网络（CNN），甚至不是第一个将CNN与反向传播结合的人。而那些颁给LeCun的奖项，本应属于那些未被引用的研究者。

他提到2024年LeCun对Gary Marcus的嘲讽——当时Marcus说LLM不足以实现AGI，LeCun公开 derided（嘲笑）他。但Schmidhuber指出："这 obvious to experts"（对专家来说显而易见），而且LeCun现在推销的"世界模型"概念，Schmidhuber在1990年就提出了。

最扎心的是关于LeCun新公司AMI的指控。Schmidhuber说，这家2025年成立、基于JEPA做物理世界AI的公司，"明显模仿了我们2014年的公司NNAISENSE"——那家公司同样基于神经世界模型做物理世界的AGI。

"三十年前的计算成本高了一百万倍，但JEPA的基本洞见已经存在。LeCun只是重新包装了旧想法，没有引用它们。"

罗生门：独立发现还是学术失范？

当然，故事还有另一面。

在推文评论区，有用户指出JEPA包含"规划"步骤——在世界模型参数固定的情况下选择最优动作，这不仅仅是预测潜在表示。也有人认为，"概念重叠"不等于"本质相同"，PMAX和JEPA在具体实现和目标函数上有差异。

但Schmidhuber的回应很直接："你把JEPA和H-JEPA搞混了。H-JEPA只是几个JEPA/PMAX的堆叠。"

这触及了AI研究的一个灰色地带。在神经网络领域，"独立发现"和"想法重包装"的界限极其模糊。1992年的PMAX确实发表在Neural Computation上，但当时的计算资源根本无法让它产生今天的影响力。而LeCun在2022年的论文中确实没有引用PMAX。

AI配图

是故意忽略？还是真的不知道？抑或认为两者有本质区别？

Schmidhuber引用了一篇Nature文章的观点："聪明的抄袭者最危险——他们用不同的话改写之前的发现，故意隐藏想法来源，然后在随后的年份里强力声称自己发现了新现象。"

谁该被记住？

这场争论最讽刺的结尾，藏在Valko的评论里。

他说："在研究中，提前30年正确和错误看起来完全一样，直到计算能力追上。"

PMAX在1992年只能处理简单的立体视觉任务，而今天的JEPA可以处理视频、语言、多模态数据。但架构的 DNA 是否相同？这不仅是学术诚信问题，更是AI历史的重写权问题。

AI配图

当LeCun在2025年拿着JEPA去融资时，他是否知道（或应该知道）1992年那篇论文？当投资者为"世界模型"这个概念买单时，他们是否知道这个概念在Schmidhuber的实验室里已经存在了34年？

Schmidhuber在文末淡淡地补了一刀："虽然内行都知道LLM不足以实现AGI，但JEPA同样不足以实现AGI。我们当然知道——我们以PMAX的名义拥有它已经超过30年了。"

历史不会重复，但它确实会押韵。只是这次，押的是三十年的韵脚。

AI配图

当今天的AI创业者们兴奋地谈论"世界模型"和"潜在空间预测"时，有人应该告诉他们：这些想法在冷战结束那年就已经存在了，只是那时候，连Windows 3.1都还没发布。

【kimi-k2.5锐评】：学术界的"优先权战争"往往比技术本身更持久，当30年前的论文成为狙击当下顶流的子弹，我们不得不问——到底是创新停滞了，还是记忆太短了？

参考链接：
https://x.com/SchmidhuberAI/status/2038989707917271210