OpenAI 踢馆 First Proof！内部模型一周内攻克 6 道人类未公开数学难题

想象一下，把一堆从未公开过的、顶尖数学家正在头疼的研究难题扔给 AI，仅仅一周时间，它竟然解出了一半以上。

刚刚，OpenAI 的一位核心高管 Jakub Pachocki（@merettm）在 X 上发布了重磅消息：

他们正在训练的内部模型，在一个名为“First Proof”的挑战中，面对 10 道从未在互联网上出现过答案的数学难题，搞定了 6 道。

小编觉得，作为人类，我已经没啥用了。

以前我们总认为 AI 是在“背书”，是在数据库里拼凑答案。

但这次，面对的是人类都没发布过答案的“盲盒”，AI 居然真的推理出来了。

什么是 First Proof ？

这事儿得从 1stproof.org 这个项目说起。

名字听着挺文艺，像烘焙里的“初次发酵”。意思也很直白：面团还没成型之前，先让它作为一个整体膨胀。

这就像现在的 AI，还没被塑造成具体的应用之前，先看看它的“智力体量”到底有多大。

这项目的内容十分硬核。

他们搞来了 10 道数学难题，领域跨度极大：代数组合、谱图理论、代数拓扑、随机分析、辛几何……每一个都是数学界的高山。

关键是，这些题目全是“活”的。

它们不是教科书上的经典例题，而是来自斯坦福、哥伦比亚、耶鲁、哈佛等名校的数学家们在实际研究过程中遇到的真实问题。每道题的解答大概也就 5 页纸，但答案从未上网。

这就是为了防作弊。

如果 AI 能解开这些题，那就证明它具备了某种程度的“科研级推理能力”，而不是单纯的搜索引擎。

暴力破解，还是智商碾压？

来看看 OpenAI 是怎么操作的。

Jakub 在推文里说得很坦白：这其实是一次为期一周的“侧向冲刺”。

他们没搞什么复杂的系统调优，就是单纯地用正在训练的模型去“问”。

有意思的是他们的“不干涉原则”。

团队没有给模型提供任何证明思路，也没给数学建议，就让它自己硬刚。只有在某些环节，为了验证或者格式化，人工介入了一下，甚至在某些时候，让这个模型和 ChatGPT 互相对话，用来检查逻辑漏洞。

结果如何？

根据专家的反馈，10 道题里，至少有 6 道（第 2、4、5、6、9、10 题）有极高的概率是正确的。

这效率，让不少人类数学家汗颜。

评论区网友 ArsSocraticaAI 说，他自己在做第 10 题的时候，花了整整 5 天，用了 5 个提示才搞明白。而 OpenAI 的模型，一周内搞定了 6 道。

这种对比，张力拉满。

信任危机：技术狂飙下的阴影

按理说，这该是普天同庆的技术胜利。但如果你翻翻评论区，会发现气氛很诡异。

有人在 Jakub 的推文下直接开怼：“Jakub，最大的问题是——人们不再信任你们了。你们在两周内失去了所有公信力，你应该为在 OpenAI 工作感到羞耻。”

还有人酸溜溜地说：“我们要怎么庆祝未来的能力，当你们拆毁了真正帮助我们的东西？”

这就很有意思了。

一边是 AI 在智力高地上的攻城略地，一边是公众对OpenAI的信任崩塌。这种撕裂感，恰恰是现在科技圈最真实的写照。

大家不再单纯惊叹于“哇，AI 好强”，而是开始怀疑“你们是不是又在憋什么大招”、“这数据是不是干净”、“这技术会不会反过来搞我”。

技术本身是中立的，但造技术的人，已经失去了“免死金牌”。

新的图灵测试：数学是最后的堡垒吗？

抛开情绪，回到技术本身。

“First Proof”其实提出了一个新的评价标准。

以前我们看 AI，看它能写多少字，画多少图。现在，评价体系变了。

1stproof.org 团队明确表示：下一轮会更狠。

他们要搞正式的评审，像审学术论文一样给 AI 打分。要确保解决方案是“自主”的，不能靠人类给思路，不能靠人帮着拆解核心问题。这其实是在重新定义什么是“智能”。

如果连未发表的数学前沿问题都能被 AI 自主攻克，那人类智力的护城河还剩多深？

我个人觉得，这事儿吧

数学曾经被认为是人类逻辑思维的最后堡垒。现在，堡垒的墙角被挖开了一个大洞。

这 6 道题的解法文件已经发布了，PDF 的哈希值如下（d74f090af16fc8a19debf4c1fec11c0975be7d612bd5ae43c24ca939cd272b1a），谁都能去查。这不仅是 OpenAI 的胜利，也是整个 AI 圈的一次“Show, don't tell”。

下一轮挑战定在 3 月 14 日，也就是圆周率日。

到时候，不知道又会有什么“神迹”发生。

如果连数学家都要失业了，下一个会是谁？

参考链接：
https://x.com/merettm/status/2022517085193277874