Google 沉默半年，扔出了个“怪物”？

说实话，看着评论区里那句 "Google is absolutely running away with it"（Google 正在绝尘而去），我有点恍惚。

就在大家以为 AI 战场已经是 OpenAI 和其他几家肉搏的时候，Google 突然反手掏出了 Gemini 3 Deep Think 的重大升级。

这不是一次普通的版本迭代。

如果说以前的 AI 是在陪我们聊天、写代码，那这次，它是真的冲着“科学家”和“工程师”的饭碗去了。

Gemini 3 Deep Think logo

智力的天花板被捅破了

先别管那些营销术语，直接看硬核数据。这次 Google 拿出来的成绩单，有点吓人。

在 Humanity’s Last Exam（人类最后的考试）这个专门为了刁难前沿模型设计的基准测试里，Deep Think 在不使用工具的情况下拿到了 48.4% 的分数。

更夸张的是 ARC-AGI-2。

这个测试圈子里的人都知道，它是衡量 AI 通用能力的“试金石”。Gemini 3 Deep Think 拿到了 84.6% 的成绩。

要知道，评论区有人专门扒了数据，隔壁的 Opus 4.6 只有 68.8%。

还有 Codeforces 的竞技编程评分，直接干到了 3455 分。这是什么概念？这是顶级程序员的段位。

甚至在国际数学奥林匹克（IMO 2025）和国际物理、化学奥林匹克（2025）的书面测试中，它都达到了金牌水平。

老实讲，这种“刷榜”能力，已经不仅仅是聪明了，简直是恐怖。

光有分数没用，落地才是硬道理。

有意思的是，Google 这次特意强调了它是和科学家、研究人员“死磕”出来的。目标很明确：解决那些没有清晰规则、没有标准答案、数据还一团糟的难题。

素材里那个 Rutgers 大学数学家 Lisa Carbone 的例子，让我印象挺深。

她研究的是连接爱因斯坦引力理论和量子力学的数学结构。这领域有多冷门？几乎没有现成的训练数据。

她用 Deep Think 审阅一篇极其专业的数学论文。

结果，AI 成功识别出了一个微妙的逻辑漏洞。

重点是，这个漏洞之前已经通过了人类的同行评审，但没人发现。

这画面感一下子就来了：当人类专家还在凭经验肉眼纠错时，AI 已经在逻辑的迷宫里把陷阱给标出来了。

AI配图

这不是辅助，这是降维打击。

除了搞理论，工程能力也是这次升级的重头戏。

杜克大学的 Wang Lab 用它来优化复杂晶体的制造方法。Deep Think 直接设计出了生长大于 100 μm 薄膜的配方，精准命中了之前方法难以企及的目标。

Google 内部的 Anupam Pathak，也就是前 Liftware 的 CEO，测试得更直接。

他拿 Deep Think 来加速物理组件的设计。

你只需要画个草图，AI 就能分析形状，建模，然后直接生成一个可以 3D 打印的文件。

从一张草图到一个实实在在的物理零件，中间的门槛被瞬间踏平了。

这点我个人觉得特别重要。它意味着 AI 不再只是一个“文案工作者”，它正在变成一个“超级工程师”。

AI配图

有个评论说得太扎心了：“Google 搞过的最伟大的把戏，就是让人们以为他们落后了。”

现在回头看，这波反转确实有点戏剧性。

当大家还在为每天一个新模型感到疲惫时，Gemini 3 Deep Think 已经悄悄通过 API 向研究人员、工程师和企业开放了早期访问。

虽然目前只对 Google AI Ultra 订阅用户开放，但这波“技术秀”的肌肉线条已经非常清晰了。

有人担心平台锁定的问题，觉得顶级模型越来越封闭；也有人开始焦虑，觉得模型发布速度已经加速到了“荒谬”的程度，甚至怀疑自己的工作 3-5 年后还会不会存在。

AI配图

但不管怎么说，那个关于 Arc-AGI-2 的悬赏还在那摆着：只要在私有评估集上超过 85%，就能拿走 70 万美元。

现在 Google 拿到了 84.6%，离“解决”这个测试只差临门一脚。

这最后的 0.4%，也许就是 AI 从“模仿人类”跨越到“超越人类”的距离。

当 AI 开始帮人类修正物理定律，帮我们手搓零件时，我们是不是该重新思考一下“智能”的定义了？

参考链接：
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/