Google 刚刚给 AI 装上了“手”：视觉模型不再只是看，而是开始“做”了

以前的 AI 看图，基本就是“一眼定生死”。

给它一张复杂的建筑图纸或者一张拥挤的演唱会照片，它扫一眼，给个答案。如果错过了某个微小的细节，比如芯片上的序列号，或者远处的一个路牌，它只能瞎猜。

这种静态的、被动的“看”，今天被 Google 彻底终结了。

Google DeepMind 刚刚给 Gemini 3 Flash 上线了一项名为 Agentic Vision 的新能力。这不仅仅是眼睛的升级，更像是给 AI 装上了一双“手”和一支“笔”。

现在的 AI，看不懂就动手算，看不清就动手裁，甚至能自己写代码来验证自己的猜想。

Agentic Vision Text

不再是“一眼定生死”，AI 学会了“动手动脚”

这不仅仅是算法的微调，而是逻辑的彻底重构。

Agentic Vision 把图像理解从“静态动作”变成了一个“智能体过程”。简单说，AI 不再是盯着图发呆，而是开始干活了。

它引入了一个 “Think, Act, Observe” 的循环：

Think（思考）：AI 先分析你的问题和图片，制定一个多步计划。
Act（行动）：它生成并执行 Python 代码。注意，是真的在跑代码。它能裁剪图片、旋转图片、甚至在上面画框标注。
Observe（观察）：处理后的新图片被塞回 AI 的上下文窗口，它再基于这些新数据，检查结果，最后给你答案。

以前 AI 是靠“猜”，现在是靠“做”。

Google 官方数据显示，这种结合了视觉推理和代码执行的能力，在大多数视觉基准测试中，带来了 5-10% 的质量提升。

Bar graph showing code execution with Gemini 3 Flash delivering a consistent 5-10% quality boost across most vision benchmarks.

当 AI 拿起“手术刀”：从数手指到审图纸

光说概念太抽象，我们来看看它到底怎么“动手”。

第一个场景：像侦探一样审图纸。

有一个叫 PlanCheckSolver.com 的 AI 建筑图纸验证平台，以前处理高分辨率图纸时总是差点意思。现在接入了 Agentic Vision，准确率直接提升了 5%。

它是怎么做到的？

当 AI 需要检查复杂的建筑规范时，它会自己写 Python 代码，把图纸里的特定区域——比如屋顶边缘或者某个建筑截面——裁剪出来，生成新的图片，然后再塞回自己的“脑子”里仔细分析。

这就像一个老练的工程师，拿着放大镜在图纸上一点点比对，而不是站在三米开外瞎瞅。

Agentic Vision diagram introduces an agentic Think, Act, Observe loop into image understanding tasks

第二个场景：数手指不再靠蒙。

让以前的 AI 数图片里有几根手指，经常出错。现在的 Gemini 3 Flash 为了不犯错，会直接用 Python 代码在图片上画出边界框，给每根手指标上数字。

这就像是 AI 拿了一支红笔，在图片上做起了“视觉草稿纸”。它不是在凭空想象，而是基于像素级的精确理解在推理。

第三个场景：视觉数学题。

面对高密度的数据表格，以前的 LLM 经常产生幻觉，算错数。现在，Gemini 3 Flash 会把计算工作甩给确定性的 Python 环境。

它识别原始数据，写代码归一化处理，甚至直接用 Matplotlib 生成一张专业的柱状图。

用可验证的执行，代替了概率性的猜测。

5% 的提升是假象，真正的颠覆在于“降维打击”

看到这里，你可能会觉得：5-10% 的提升，好像也没多大？

这就是数据最具有迷惑性的地方。

正如网友 Voxyz_AI 在推文下的犀利评论：

“那个 5-10% 的基准测试提升完全低估了这项技术。真正的解锁在于，非工程师现在也能做以前需要写 Python 脚本才能做的图像分析了。这不是 10% 的更好，这是一个完全不同的产品类别。”

AI配图

这才是重点。

以前，你要想把图片里的数据提取出来、做分析、画图表，你得是个程序员，得懂 Python，得写脚本。

现在，你只需要会说话。

Agentic Vision 把复杂的工程能力，封装成了一个极其简单的“Thinking”按钮。这不仅仅是模型变聪明了，这是门槛的消失。

它把一个“静态的观察者”，变成了一个“主动的执行者”。

现在就能玩，但这只是个开始

这个功能不是画饼，现在已经上线了。

AI配图

开发者可以通过 Gemini API 在 Google AI Studio 和 Vertex AI 中使用。普通用户在 Gemini app 里，选择模型下拉菜单里的 “Thinking” 模式，就能体验到这种会“动手”的 AI。

目前的 Gemini 3 Flash 已经能隐式地决定何时放大细节。虽然像旋转图片或做视觉数学题目前还需要你稍微提示一下，但 Google 表示，未来的更新会让这些行为变得完全自动化。

他们还在探索给 AI 装更多工具，比如网络搜索、反向图片搜索。

AI配图

甚至，这个能力未来不仅限于 Flash 模型，会扩展到更多尺寸的模型上。

AI 不再只是用眼睛看世界了，它开始学会用代码去触摸、去解剖、去重塑它看到的一切。

你准备好让 AI 帮你“动手”干活了吗？

参考链接：
https://x.com/GoogleAI/status/2016267526330601720