说实话,看着评论区里那句 "Google is absolutely running away with it"(Google 正在绝尘而去),我有点恍惚。

就在大家以为 AI 战场已经是 OpenAI 和其他几家肉搏的时候,Google 突然反手掏出了 Gemini 3 Deep Think 的重大升级。

这不是一次普通的版本迭代。

如果说以前的 AI 是在陪我们聊天、写代码,那这次,它是真的冲着“科学家”和“工程师”的饭碗去了。

Gemini 3 Deep Think logo

智力的天花板被捅破了

先别管那些营销术语,直接看硬核数据。这次 Google 拿出来的成绩单,有点吓人。

在 Humanity’s Last Exam(人类最后的考试)这个专门为了刁难前沿模型设计的基准测试里,Deep Think 在不使用工具的情况下拿到了 48.4% 的分数。

更夸张的是 ARC-AGI-2。

这个测试圈子里的人都知道,它是衡量 AI 通用能力的“试金石”。Gemini 3 Deep Think 拿到了 84.6% 的成绩。

要知道,评论区有人专门扒了数据,隔壁的 Opus 4.6 只有 68.8%。

还有 Codeforces 的竞技编程评分,直接干到了 3455 分。这是什么概念?这是顶级程序员的段位。

甚至在国际数学奥林匹克(IMO 2025)和国际物理、化学奥林匹克(2025)的书面测试中,它都达到了金牌水平。

老实讲,这种“刷榜”能力,已经不仅仅是聪明了,简直是恐怖。

人类专家看不出的bug,它看出来了

光有分数没用,落地才是硬道理。

有意思的是,Google 这次特意强调了它是和科学家、研究人员“死磕”出来的。目标很明确:解决那些没有清晰规则、没有标准答案、数据还一团糟的难题。

素材里那个 Rutgers 大学数学家 Lisa Carbone 的例子,让我印象挺深。

她研究的是连接爱因斯坦引力理论和量子力学的数学结构。这领域有多冷门?几乎没有现成的训练数据。

她用 Deep Think 审阅一篇极其专业的数学论文。

结果,AI 成功识别出了一个微妙的逻辑漏洞

重点是,这个漏洞之前已经通过了人类的同行评审,但没人发现。

这画面感一下子就来了:当人类专家还在凭经验肉眼纠错时,AI 已经在逻辑的迷宫里把陷阱给标出来了。

AI配图

这不是辅助,这是降维打击。

从“纸上谈兵”到“手搓零件”

除了搞理论,工程能力也是这次升级的重头戏。

杜克大学的 Wang Lab 用它来优化复杂晶体的制造方法。Deep Think 直接设计出了生长大于 100 μm 薄膜的配方,精准命中了之前方法难以企及的目标。

Google 内部的 Anupam Pathak,也就是前 Liftware 的 CEO,测试得更直接。

他拿 Deep Think 来加速物理组件的设计。

你只需要画个草图,AI 就能分析形状,建模,然后直接生成一个可以 3D 打印的文件。

从一张草图到一个实实在在的物理零件,中间的门槛被瞬间踏平了。

这点我个人觉得特别重要。它意味着 AI 不再只是一个“文案工作者”,它正在变成一个“超级工程师”。

谁才是真正的赢家?

AI配图

有个评论说得太扎心了:“Google 搞过的最伟大的把戏,就是让人们以为他们落后了。”

现在回头看,这波反转确实有点戏剧性。

当大家还在为每天一个新模型感到疲惫时,Gemini 3 Deep Think 已经悄悄通过 API 向研究人员、工程师和企业开放了早期访问。

虽然目前只对 Google AI Ultra 订阅用户开放,但这波“技术秀”的肌肉线条已经非常清晰了。

有人担心平台锁定的问题,觉得顶级模型越来越封闭;也有人开始焦虑,觉得模型发布速度已经加速到了“荒谬”的程度,甚至怀疑自己的工作 3-5 年后还会不会存在。

AI配图

但不管怎么说,那个关于 Arc-AGI-2 的悬赏还在那摆着:只要在私有评估集上超过 85%,就能拿走 70 万美元。

现在 Google 拿到了 84.6%,离“解决”这个测试只差临门一脚。

这最后的 0.4%,也许就是 AI 从“模仿人类”跨越到“超越人类”的距离。

当 AI 开始帮人类修正物理定律,帮我们手搓零件时,我们是不是该重新思考一下“智能”的定义了?

参考链接:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/