77.1%。

在 ARC-AGI-2 这个被称为“推理能力试金石”的基准测试里,谷歌的新模型 Gemini 3.1 Pro 拿下了77.1%。

这比上一代 3 Pro 的成绩直接翻了一倍还多!

有点离谱。

就在大家还在讨论 OpenAI 和 Claude 孰强孰弱的时候,谷歌悄悄掏出了这张底牌。

更狠的是价格。

输入 12。

这是什么概念?几乎就是市面上最强模型 Opus 价格的一半。

你的赛车,不仅车速能跟头号种子掰手腕,油费还只收人家的一半。

但这事儿可没那么简单。

开发者社区里已经吵翻天了,有人叫好,有人在骂。

这场关于“智商”与“稳定性”的博弈,才刚刚开始。

image

不仅聪明,是会干活

谷歌官方这次给 3.1 Pro 的定义很直接:

简单答案不够用的时候,就找它。

这不仅仅是个能陪聊的 AI,这是个能写代码、做设计、搞合成的“全能工程师”。

而且,这次更新是实打实的全平台覆盖。

不管你是开发者,用 API、Vertex AI,还是普通用户,在 Gemini App、NotebookLM 上,今天都能用到它。

有意思的是谷歌展示的几个案例。

它能生成纯代码的 SVG 动画。

不是那种糊成一团的像素图,而是基于代码的矢量图,放多大都清晰,文件还极小。

你让它画个独角兽玩 Xbox,它就能给你画出来。

它还能搞复杂的系统合成。

比如直接给你搭建一个实时的航空航天仪表盘,数据流直接对接国际空间站的轨道数据。

它还能把文学名著直接变成现代网页。

它读了《呼啸山庄》,没给你写读后感,而是直接写了个代码,把书里的阴郁氛围变成了一个极具设计感的个人主页网站。

这种“把抽象概念直接转化为功能性代码”的能力,说实话,有点吓人。

价格屠夫,还是脾气古怪的天才?

性能这么强,价格这么低,开发者应该狂欢才对吧?

并没有。

评论区里的声音,撕裂得很。

一位前谷歌员工直言不讳:这是他用过最让人抓狂的模型。

这就很有意思了。

他认为,Gemini 在推理、设计、生成原始代码方面, stunningly good(好得惊人)。

但一旦涉及到实际落地,尤其是跟 Claude Opus 比,它就经常“掉链子”。

“Gemini is consistently the most frustrating model I've used for development.”

在 VS Code Copilot 里,Claude 能给用户一种流畅的“思维流”体验,而 Gemini 有时就像个聪明但不稳定的实习生,想法很棒,执行起来总是差点意思。

大概可以这么比喻:

你花一顿寿司的钱,雇了一个智商 180 的天才帮你干活。

image

他心情好的时候,一天能干完一个月的活;但心情不好的时候,能把你的项目搞崩。

这就很考验使用者的能力了。

便宜,但不一定好用?

这里有个很有意思的对比。

虽然 3.1 Pro 号称推理能力翻倍,但有人实测发现,在某些测试里,开了“中等推理”的 3 Flash 版本,表现竟然比 3.1 Pro 还好。

3.1 Pro 似乎有时候能推理出正确答案,但最后却选了个错误的写出来。

这就是大模型的“玄学”之处了。

而且,谷歌现在的模型策略也让人看不懂。

Gemini 3 还在预览阶段,2.5 已经被弃用了。

有开发者吐槽:谷歌是不是打算把模型永远留在“预览”里?

就像是一个永远不愿意毕业的优等生,一直拿“实习生”的工资,但也一直不承担正式员工的责任。

不过,支持者也有道理。

有人算了一笔账:3.1 Pro 的运行成本只有 Opus Thinking 和 Sonnet 的 40%,速度却快了 30%。

对于精打细算的初创公司来说,这种性价比的诱惑力太大了。

image

哪怕它偶尔抽风,只要能解决几个 Opus 解决不了的难题(比如那个 UI 数据同步的竞态条件 bug),这钱就花得值。

最后的思考

Gemini 3.1 Pro 是个矛盾体。

它有着惊人的推理天赋,能把《呼啸山庄》变成代码,能把国际空间站数据变成仪表盘。

它的价格低到让对手颤抖。

但它依然不稳定,依然像个难以捉摸的天才。

谷歌这次显然是想用“高性价比+强推理”来撕开市场缺口。

image

但你敢不敢把核心业务交给一个偶尔抽风的天才?

对于开发者来说,现在可能是个最好的时代——你手里有了更多、更便宜的工具。

但也可能是个最坏的时代——你得花更多时间去挑选、去测试、去适应这些性格迥异的 AI 助手。

至于 3.1 Pro 到底能不能打?

别看广告,看疗效,去跑跑你的代码吧。

参考链接:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/