奥数金牌只是热身,这次AI真成科学家了
说实话,2025年夏天那会儿,大家还在惊叹AI拿了国际奥林匹克数学竞赛(IMO)的金牌。
那时候我们觉得,哇,这做题能力真强,也就是个超级学霸罢了。
但DeepMind最新的动作告诉我们:别把AI只当做题家,人家已经开始搞科研了。
就在昨天,GoogleDeepMind甩出了两篇重磅论文,展示了Gemini Deep Think模式在数学、物理和计算机科学领域的实战能力。这不仅仅是解几道题那么简单,它是真的在解决那些困扰人类专家多年的“硬骨头”。
甚至,它还顺手推翻了一个人类数学家信奉了十年的猜想。
代号“Aletheia”:那个会认怂的数学家
先说数学。
研究级数学和奥数题完全是两码事。奥数题有标准答案,研究级数学那是大海捞针,文献浩如烟海,稍微不注意就会产生幻觉。
为了搞定这个,DeepMind搞了个内部代号叫“Aletheia”的数学研究智能体。
这东西有个特别有意思的设计:它会承认自己解不出来。
这不是摆烂,这是为了效率。它的核心工作流其实很粗暴:生成解法 -> 验证器找茬 -> 修正 -> 再验证。如果验证器发现错得离谱,直接打回重来;如果是小毛病,就修修补补。
而且,它还会用Google Search查文献,防止一本正经地胡说八道。
效果如何?在IMO-ProofBench高级测试中,它拿了90%的高分。更重要的是,它已经开始产出实际成果了。
有一篇叫Feng26的论文,几乎全是AI自己搞出来的,没怎么用人插手;还有一篇LeeSeo26,是典型的人机协作。它甚至去挑战了Bloom’s Erdős猜想数据库里的难题,还真的解出了4个开放性问题。
DeepMind还很诚实地给这些成果分了级。目前最高也就是Level 2(可发表质量),离那种“里程碑式
参考链接:
https://x.com/GoogleDeepMind/status/2021632302070026581