就在我们还在讨论AI会不会写代码、会不会画图的时候,AI 已经悄悄把手伸向了人类智慧皇冠上的明珠——数学研究。

DeepMind 最新推出的数学研究智能体 Aletheia,不仅在奥林匹克数学竞赛(IMO)的高级基准测试里拿下了 95.1% 的惊人准确率,更关键的是,它已经开始帮人类数学家“做研究”了。

这不是简单的“算得快”,而是真正的发现新定理、解决开放难题。

更有意思的是,在这场人机协作的实验里,人类数学家甚至不得不承认:

有时候,AI写的证明比我们自己的更好。

AI 不只会做题,它开始搞科研了

image

先别急着喊“狼来了”,我们得先搞清楚 Aletheia 到底是个什么东西。

简单来说,它不是一个只会做选择题的模型,而是一个配备了“强力大脑”和“工具箱”的研究员。

它的核心是基于 Gemini Deep Think 的推理能力,加上 Google Search 和网络浏览这些工具,能够像人类学者一样,去查文献、找思路,然后迭代、验证、修改。在 IMO-ProofBench 这个高难度的测试集上,它的准确率达到了 95.1%,远超之前 65.7% 的最好成绩。

但这只是热身。

真正的硬仗是在“PhD级”的数学研究上。

Aletheia 并没有止步于刷题,它直接下场去啃那些困扰人类数学家的硬骨头,甚至还真的产出了几篇像样的论文。

这就好比一个不仅拿了奥数金牌,还能直接去大学里开课的天才少年。

数学家扔掉自己的证明

在处理一个叫“算术 Hirzebruch 比例性原理”的问题时,Feng–Yun–Zhang 团队原本已经有了自己的解法。他们甚至已经把这个问题作为一个内部基准测试扔给了模型,起初谁也没抱太大希望。

随着推理时间的增加,模型不仅算出了答案,而且给出的解法让人类作者眼前一亮。

image

结果是,数学家们决定放弃自己原本的证明,改用 AI 生成的版本。

更有意思的是后续。

Aletheia 在没有任何人类干预的情况下,用一种人类作者都不太熟悉的领域——代数组合数学——里的技术,算出了一般情况下的特征值。这不仅仅是帮忙,这是在教人类数学家新招数。

论文《Eigenweights for Arithmetic Hirzebruch Proportionality》里的核心数学内容,完全是由 AI 生成的。

当机器的推导比人类的直觉更优雅时,我们所谓的“创造力”到底还剩什么?

一种奇怪的角色互换

我们通常理解的“人机协作”,是人类把大问题拆解成一个个小任务,喂给 AI 去做填空题。但在另一项关于“多变量独立多项式下界”的研究中,剧本被反转了。

Joonkyung Lee 和 Jaehyeon Seo 两位数学家原本只是想验证一个不等式。结果 Aletheia 直接甩出了一套“高层战略”,比如建议使用特定的对偶集。

image

这时候,人类反而成了那个负责填坑的工人。

AI 负责指方向、给愿景,人类数学家负责把这些模糊的想法转化成严谨的证明步骤。

甚至有些时候,作者只保留了 AI 给出的命题,然后自己从头去证,仿佛是从 AI 那里获得了某种神谕般的灵感。

这种工作流的变化,可能比解决那道数学题本身更有意义。它暗示了未来的数学家可能更像是一个“架构师”或“审计师”,而繁重的推导工作,完全可以交给机器。

700 次尝试背后的残酷真相

当然,故事不能只讲一半。

为了看看 Aletheia 到底有几把刷子,研究团队搞了一场压力测试。

他们把目标对准了 Erdős 问题库——匈牙利大数学家 Erdős 留下的著名难题集。他们挑选了当时标记为未解决的 700 个问题,让 AI 轮番轰炸。

结果如何?

模型最初给出了 200 个看起来像样的解,经过人类专家的严格审查,大部分都被毙掉了。要么是根本就错了,要么是钻了空子,给出了一个毫无数学意义的微不足道的解。

最终,只有 13 个解法被认为是有意义的正确答案。在这 13 个里,只有 4 个是真正意义上的自主解决。

换句话说,哪怕是最先进的 AI,在面对真正的数学研究时,成功率依然低得吓人。

更有意思的是,AI 还暴露出了一个新毛病:潜意识抄袭。

在解决 Erdős-1089 问题时,AI 给出了一个完美的解法。结果人类一查文献,发现这事儿早在 1981 年就被别人顺手解决了,只是那位作者当时都没意识到自己解决了一个 Erdős 猜想。

AI 并不是在抄袭,它只是在训练数据里记住了这个解法,然后复述了出来。这就像一个学生背下了答案,却不知道这道题在考试里到底意味着什么。

所以,很多数学难题之所以没被解决,不是因为难,而是因为没人理。

这就引出了一个很尴尬的问题。

在 AI 辅助科研的过程中,我们怎么区分它是“独立发现”了新定理,还是仅仅从海量的训练数据里“挖坟”挖出了一个旧结果?

虽然检查日志显示它不是直接复制粘贴的,但这依然让人不安。

这种“无意的剽窃”或者说“记忆混淆”,可能会成为未来 AI 科研的一颗定时炸弹。毕竟,科学研究的核心是“新”。如果一个 AI 每天都在“重新发明轮子”,那它的效率再高,意义又有多大呢?

最后的防线依然是人

不管 AI 变得多么强大,现在的数学界依然守着一条底线:论文的作者必须是人。

即便 Aletheia 在某些论文里贡献了核心证明,甚至主导了解题思路,但最终署名的依然是人类数学家。

原因很简单:责任。

发表论文不仅仅是展示结果,更是要为这个结果的正确性、引用的准确性负全责。这种 accountability(问责制),目前的 AI 承担不起。

如果 AI 在论文里胡乱引用,或者证明里藏着深层次的逻辑漏洞,你没法去“审判”一个算法。所以,现在的局面很清晰:

Aletheia 这样的智能体,已经从一个“计算器”进化成了“超级实习生”。它能提供惊人的直觉,能处理繁琐的推导,甚至能教你几招你没见过的技术。

但在按下“发表”键的那一刻,坐在那把椅子上的,还得是我们自己。

这就够了,不是吗?

参考链接:
https://arxiv.org/abs/2602.10177