就在我们还在讨论AI会不会写代码、会不会画图的时候,AI 已经悄悄把手伸向了人类智慧皇冠上的明珠——数学研究。
DeepMind 最新推出的数学研究智能体 Aletheia,不仅在奥林匹克数学竞赛(IMO)的高级基准测试里拿下了 95.1% 的惊人准确率,更关键的是,它已经开始帮人类数学家“做研究”了。
这不是简单的“算得快”,而是真正的发现新定理、解决开放难题。
更有意思的是,在这场人机协作的实验里,人类数学家甚至不得不承认:
有时候,AI写的证明比我们自己的更好。
AI 不只会做题,它开始搞科研了
先别急着喊“狼来了”,我们得先搞清楚 Aletheia 到底是个什么东西。
简单来说,它不是一个只会做选择题的模型,而是一个配备了“强力大脑”和“工具箱”的研究员。
它的核心是基于 Gemini Deep Think 的推理能力,加上 Google Search 和网络浏览这些工具,能够像人类学者一样,去查文献、找思路,然后迭代、验证、修改。在 IMO-ProofBench 这个高难度的测试集上,它的准确率达到了 95.1%,远超之前 65.7% 的最好成绩。
但这只是热身。
真正的硬仗是在“PhD级”的数学研究上。
Aletheia 并没有止步于刷题,它直接下场去啃那些困扰人类数学家的硬骨头,甚至还真的产出了几篇像样的论文。
这就好比一个不仅拿了奥数金牌,还能直接去大学里开课的天才少年。
数学家扔掉自己的证明
在处理一个叫“算术 Hirzebruch 比例性原理”的问题时,Feng–Yun–Zhang 团队原本已经有了自己的解法。他们甚至已经把这个问题作为一个内部基准测试扔给了模型,起初谁也没抱太大希望。
随着推理时间的增加,模型不仅算出了答案,而且给出的解法让人类作者眼前一亮。
结果是,数学家们决定放弃自己原本的证明,改用 AI 生成的版本。
更有意思的是后续。
Aletheia 在没有任何人类干预的情况下,用一种人类作者都不太熟悉的领域——代数组合数学——里的技术,算出了一般情况下的特征值。这不仅仅是帮忙,这是在教人类数学家新招数。
论文《Eigenweights for Arithmetic Hirzebruch Proportionality》里的核心数学内容,完全是由 AI 生成的。
当机器的推导比人类的直觉更优雅时,我们所谓的“创造力”到底还剩什么?
一种奇怪的角色互换
我们通常理解的“人机协作”,是人类把大问题拆解成一个个小任务,喂给 AI 去做填空题。但在另一项关于“多变量独立多项式下界”的研究中,剧本被反转了。
Joonkyung Lee 和 Jaehyeon Seo 两位数学家原本只是想验证一个不等式。结果 Aletheia 直接甩出了一套“高层战略”,比如建议使用特定的对偶集。
这时候,人类反而成了那个负责填坑的工人。
AI 负责指方向、给愿景,人类数学家负责把这些模糊的想法转化成严谨的证明步骤。
甚至有些时候,作者只保留了 AI 给出的命题,然后自己从头去证,仿佛是从 AI 那里获得了某种神谕般的灵感。
这种工作流的变化,可能比解决那道数学题本身更有意义。它暗示了未来的数学家可能更像是一个“架构师”或“审计师”,而繁重的推导工作,完全可以交给机器。
700 次尝试背后的残酷真相
当然,故事不能只讲一半。
为了看看 Aletheia 到底有几把刷子,研究团队搞了一场压力测试。
他们把目标对准了 Erdős 问题库——匈牙利大数学家 Erdős 留下的著名难题集。他们挑选了当时标记为未解决的 700 个问题,让 AI 轮番轰炸。
结果如何?
模型最初给出了 200 个看起来像样的解,经过人类专家的严格审查,大部分都被毙掉了。要么是根本就错了,要么是钻了空子,给出了一个毫无数学意义的微不足道的解。
最终,只有 13 个解法被认为是有意义的正确答案。在这 13 个里,只有 4 个是真正意义上的自主解决。
换句话说,哪怕是最先进的 AI,在面对真正的数学研究时,成功率依然低得吓人。
更有意思的是,AI 还暴露出了一个新毛病:潜意识抄袭。
在解决 Erdős-1089 问题时,AI 给出了一个完美的解法。结果人类一查文献,发现这事儿早在 1981 年就被别人顺手解决了,只是那位作者当时都没意识到自己解决了一个 Erdős 猜想。
AI 并不是在抄袭,它只是在训练数据里记住了这个解法,然后复述了出来。这就像一个学生背下了答案,却不知道这道题在考试里到底意味着什么。
所以,很多数学难题之所以没被解决,不是因为难,而是因为没人理。
这就引出了一个很尴尬的问题。
在 AI 辅助科研的过程中,我们怎么区分它是“独立发现”了新定理,还是仅仅从海量的训练数据里“挖坟”挖出了一个旧结果?
虽然检查日志显示它不是直接复制粘贴的,但这依然让人不安。
这种“无意的剽窃”或者说“记忆混淆”,可能会成为未来 AI 科研的一颗定时炸弹。毕竟,科学研究的核心是“新”。如果一个 AI 每天都在“重新发明轮子”,那它的效率再高,意义又有多大呢?
最后的防线依然是人
不管 AI 变得多么强大,现在的数学界依然守着一条底线:论文的作者必须是人。
即便 Aletheia 在某些论文里贡献了核心证明,甚至主导了解题思路,但最终署名的依然是人类数学家。
原因很简单:责任。
发表论文不仅仅是展示结果,更是要为这个结果的正确性、引用的准确性负全责。这种 accountability(问责制),目前的 AI 承担不起。
如果 AI 在论文里胡乱引用,或者证明里藏着深层次的逻辑漏洞,你没法去“审判”一个算法。所以,现在的局面很清晰:
Aletheia 这样的智能体,已经从一个“计算器”进化成了“超级实习生”。它能提供惊人的直觉,能处理繁琐的推导,甚至能教你几招你没见过的技术。
但在按下“发表”键的那一刻,坐在那把椅子上的,还得是我们自己。
这就够了,不是吗?
参考链接:
https://arxiv.org/abs/2602.10177