IMO金牌只是开胃菜？谷歌DeepMind最新智能体Aletheia让数学家扔掉自己的证明

就在我们还在讨论AI会不会写代码、会不会画图的时候，AI 已经悄悄把手伸向了人类智慧皇冠上的明珠——数学研究。

DeepMind 最新推出的数学研究智能体 Aletheia，不仅在奥林匹克数学竞赛（IMO）的高级基准测试里拿下了 95.1% 的惊人准确率，更关键的是，它已经开始帮人类数学家“做研究”了。

这不是简单的“算得快”，而是真正的发现新定理、解决开放难题。

更有意思的是，在这场人机协作的实验里，人类数学家甚至不得不承认：

有时候，AI写的证明比我们自己的更好。

AI 不只会做题，它开始搞科研了

先别急着喊“狼来了”，我们得先搞清楚 Aletheia 到底是个什么东西。

简单来说，它不是一个只会做选择题的模型，而是一个配备了“强力大脑”和“工具箱”的研究员。

它的核心是基于 Gemini Deep Think 的推理能力，加上 Google Search 和网络浏览这些工具，能够像人类学者一样，去查文献、找思路，然后迭代、验证、修改。在 IMO-ProofBench 这个高难度的测试集上，它的准确率达到了 95.1%，远超之前 65.7% 的最好成绩。

但这只是热身。

真正的硬仗是在“PhD级”的数学研究上。

Aletheia 并没有止步于刷题，它直接下场去啃那些困扰人类数学家的硬骨头，甚至还真的产出了几篇像样的论文。

这就好比一个不仅拿了奥数金牌，还能直接去大学里开课的天才少年。

数学家扔掉自己的证明

在处理一个叫“算术 Hirzebruch 比例性原理”的问题时，Feng–Yun–Zhang 团队原本已经有了自己的解法。他们甚至已经把这个问题作为一个内部基准测试扔给了模型，起初谁也没抱太大希望。

随着推理时间的增加，模型不仅算出了答案，而且给出的解法让人类作者眼前一亮。

结果是，数学家们决定放弃自己原本的证明，改用 AI 生成的版本。

更有意思的是后续。

Aletheia 在没有任何人类干预的情况下，用一种人类作者都不太熟悉的领域——代数组合数学——里的技术，算出了一般情况下的特征值。这不仅仅是帮忙，这是在教人类数学家新招数。

论文《Eigenweights for Arithmetic Hirzebruch Proportionality》里的核心数学内容，完全是由 AI 生成的。

当机器的推导比人类的直觉更优雅时，我们所谓的“创造力”到底还剩什么？

一种奇怪的角色互换

我们通常理解的“人机协作”，是人类把大问题拆解成一个个小任务，喂给 AI 去做填空题。但在另一项关于“多变量独立多项式下界”的研究中，剧本被反转了。

Joonkyung Lee 和 Jaehyeon Seo 两位数学家原本只是想验证一个不等式。结果 Aletheia 直接甩出了一套“高层战略”，比如建议使用特定的对偶集。

这时候，人类反而成了那个负责填坑的工人。

AI 负责指方向、给愿景，人类数学家负责把这些模糊的想法转化成严谨的证明步骤。

甚至有些时候，作者只保留了 AI 给出的命题，然后自己从头去证，仿佛是从 AI 那里获得了某种神谕般的灵感。

这种工作流的变化，可能比解决那道数学题本身更有意义。它暗示了未来的数学家可能更像是一个“架构师”或“审计师”，而繁重的推导工作，完全可以交给机器。

700 次尝试背后的残酷真相

当然，故事不能只讲一半。

为了看看 Aletheia 到底有几把刷子，研究团队搞了一场压力测试。

他们把目标对准了 Erdős 问题库——匈牙利大数学家 Erdős 留下的著名难题集。他们挑选了当时标记为未解决的 700 个问题，让 AI 轮番轰炸。

结果如何？

模型最初给出了 200 个看起来像样的解，经过人类专家的严格审查，大部分都被毙掉了。要么是根本就错了，要么是钻了空子，给出了一个毫无数学意义的微不足道的解。

最终，只有 13 个解法被认为是有意义的正确答案。在这 13 个里，只有 4 个是真正意义上的自主解决。

换句话说，哪怕是最先进的 AI，在面对真正的数学研究时，成功率依然低得吓人。

更有意思的是，AI 还暴露出了一个新毛病：潜意识抄袭。

在解决 Erdős-1089 问题时，AI 给出了一个完美的解法。结果人类一查文献，发现这事儿早在 1981 年就被别人顺手解决了，只是那位作者当时都没意识到自己解决了一个 Erdős 猜想。

AI 并不是在抄袭，它只是在训练数据里记住了这个解法，然后复述了出来。这就像一个学生背下了答案，却不知道这道题在考试里到底意味着什么。

所以，很多数学难题之所以没被解决，不是因为难，而是因为没人理。

这就引出了一个很尴尬的问题。

在 AI 辅助科研的过程中，我们怎么区分它是“独立发现”了新定理，还是仅仅从海量的训练数据里“挖坟”挖出了一个旧结果？

虽然检查日志显示它不是直接复制粘贴的，但这依然让人不安。

这种“无意的剽窃”或者说“记忆混淆”，可能会成为未来 AI 科研的一颗定时炸弹。毕竟，科学研究的核心是“新”。如果一个 AI 每天都在“重新发明轮子”，那它的效率再高，意义又有多大呢？

最后的防线依然是人

不管 AI 变得多么强大，现在的数学界依然守着一条底线：论文的作者必须是人。

即便 Aletheia 在某些论文里贡献了核心证明，甚至主导了解题思路，但最终署名的依然是人类数学家。

原因很简单：责任。

发表论文不仅仅是展示结果，更是要为这个结果的正确性、引用的准确性负全责。这种 accountability（问责制），目前的 AI 承担不起。

如果 AI 在论文里胡乱引用，或者证明里藏着深层次的逻辑漏洞，你没法去“审判”一个算法。所以，现在的局面很清晰：

Aletheia 这样的智能体，已经从一个“计算器”进化成了“超级实习生”。它能提供惊人的直觉，能处理繁琐的推导，甚至能教你几招你没见过的技术。

但在按下“发表”键的那一刻，坐在那把椅子上的，还得是我们自己。

这就够了，不是吗？

参考链接：
https://arxiv.org/abs/2602.10177