想象一下,把一堆从未公开过的、顶尖数学家正在头疼的研究难题扔给 AI,仅仅一周时间,它竟然解出了一半以上。

image

刚刚,OpenAI 的一位核心高管 Jakub Pachocki(@merettm)在 X 上发布了重磅消息:

他们正在训练的内部模型,在一个名为“First Proof”的挑战中,面对 10 道从未在互联网上出现过答案的数学难题,搞定了 6 道。

小编觉得,作为人类,我已经没啥用了。

以前我们总认为 AI 是在“背书”,是在数据库里拼凑答案。

但这次,面对的是人类都没发布过答案的“盲盒”,AI 居然真的推理出来了。

image

什么是 First Proof ?

这事儿得从 1stproof.org 这个项目说起。

名字听着挺文艺,像烘焙里的“初次发酵”。意思也很直白:面团还没成型之前,先让它作为一个整体膨胀。

这就像现在的 AI,还没被塑造成具体的应用之前,先看看它的“智力体量”到底有多大。

这项目的内容十分硬核。

他们搞来了 10 道数学难题,领域跨度极大:代数组合、谱图理论、代数拓扑、随机分析、辛几何……每一个都是数学界的高山。

关键是,这些题目全是“活”的。

它们不是教科书上的经典例题,而是来自斯坦福、哥伦比亚、耶鲁、哈佛等名校的数学家们在实际研究过程中遇到的真实问题。每道题的解答大概也就 5 页纸,但答案从未上网。

这就是为了防作弊。

如果 AI 能解开这些题,那就证明它具备了某种程度的“科研级推理能力”,而不是单纯的搜索引擎。

暴力破解,还是智商碾压?

来看看 OpenAI 是怎么操作的。

Jakub 在推文里说得很坦白:这其实是一次为期一周的“侧向冲刺”。

image

他们没搞什么复杂的系统调优,就是单纯地用正在训练的模型去“问”。

有意思的是他们的“不干涉原则”。

团队没有给模型提供任何证明思路,也没给数学建议,就让它自己硬刚。只有在某些环节,为了验证或者格式化,人工介入了一下,甚至在某些时候,让这个模型和 ChatGPT 互相对话,用来检查逻辑漏洞。

结果如何?

根据专家的反馈,10 道题里,至少有 6 道(第 2、4、5、6、9、10 题)有极高的概率是正确的。

这效率,让不少人类数学家汗颜。

评论区网友 ArsSocraticaAI 说,他自己在做第 10 题的时候,花了整整 5 天,用了 5 个提示才搞明白。而 OpenAI 的模型,一周内搞定了 6 道。

这种对比,张力拉满。

信任危机:技术狂飙下的阴影

按理说,这该是普天同庆的技术胜利。但如果你翻翻评论区,会发现气氛很诡异。

有人在 Jakub 的推文下直接开怼:“Jakub,最大的问题是——人们不再信任你们了。你们在两周内失去了所有公信力,你应该为在 OpenAI 工作感到羞耻。”

还有人酸溜溜地说:“我们要怎么庆祝未来的能力,当你们拆毁了真正帮助我们的东西?”

这就很有意思了。

一边是 AI 在智力高地上的攻城略地,一边是公众对OpenAI的信任崩塌。这种撕裂感,恰恰是现在科技圈最真实的写照。

大家不再单纯惊叹于“哇,AI 好强”,而是开始怀疑“你们是不是又在憋什么大招”、“这数据是不是干净”、“这技术会不会反过来搞我”。

技术本身是中立的,但造技术的人,已经失去了“免死金牌”。

新的图灵测试:数学是最后的堡垒吗?

抛开情绪,回到技术本身。

“First Proof”其实提出了一个新的评价标准。

以前我们看 AI,看它能写多少字,画多少图。现在,评价体系变了。

1stproof.org 团队明确表示:下一轮会更狠。

他们要搞正式的评审,像审学术论文一样给 AI 打分。要确保解决方案是“自主”的,不能靠人类给思路,不能靠人帮着拆解核心问题。这其实是在重新定义什么是“智能”。

如果连未发表的数学前沿问题都能被 AI 自主攻克,那人类智力的护城河还剩多深?

我个人觉得,这事儿吧

数学曾经被认为是人类逻辑思维的最后堡垒。现在,堡垒的墙角被挖开了一个大洞。

这 6 道题的解法文件已经发布了,PDF 的哈希值如下(d74f090af16fc8a19debf4c1fec11c0975be7d612bd5ae43c24ca939cd272b1a),谁都能去查。这不仅是 OpenAI 的胜利,也是整个 AI 圈的一次“Show, don't tell”。

下一轮挑战定在 3 月 14 日,也就是圆周率日。

到时候,不知道又会有什么“神迹”发生。

如果连数学家都要失业了,下一个会是谁?

参考链接:
https://x.com/merettm/status/2022517085193277874