以前的 AI 看图,基本就是“一眼定生死”。
给它一张复杂的建筑图纸或者一张拥挤的演唱会照片,它扫一眼,给个答案。如果错过了某个微小的细节,比如芯片上的序列号,或者远处的一个路牌,它只能瞎猜。
这种静态的、被动的“看”,今天被 Google 彻底终结了。
Google DeepMind 刚刚给 Gemini 3 Flash 上线了一项名为 Agentic Vision 的新能力。这不仅仅是眼睛的升级,更像是给 AI 装上了一双“手”和一支“笔”。
现在的 AI,看不懂就动手算,看不清就动手裁,甚至能自己写代码来验证自己的猜想。
不再是“一眼定生死”,AI 学会了“动手动脚”
这不仅仅是算法的微调,而是逻辑的彻底重构。
Agentic Vision 把图像理解从“静态动作”变成了一个“智能体过程”。简单说,AI 不再是盯着图发呆,而是开始干活了。
它引入了一个 “Think, Act, Observe” 的循环:
- Think(思考):AI 先分析你的问题和图片,制定一个多步计划。
- Act(行动):它生成并执行 Python 代码。注意,是真的在跑代码。它能裁剪图片、旋转图片、甚至在上面画框标注。
- Observe(观察):处理后的新图片被塞回 AI 的上下文窗口,它再基于这些新数据,检查结果,最后给你答案。
以前 AI 是靠“猜”,现在是靠“做”。
Google 官方数据显示,这种结合了视觉推理和代码执行的能力,在大多数视觉基准测试中,带来了 5-10% 的质量提升。
当 AI 拿起“手术刀”:从数手指到审图纸
光说概念太抽象,我们来看看它到底怎么“动手”。
第一个场景:像侦探一样审图纸。
有一个叫 PlanCheckSolver.com 的 AI 建筑图纸验证平台,以前处理高分辨率图纸时总是差点意思。现在接入了 Agentic Vision,准确率直接提升了 5%。
它是怎么做到的?
当 AI 需要检查复杂的建筑规范时,它会自己写 Python 代码,把图纸里的特定区域——比如屋顶边缘或者某个建筑截面——裁剪出来,生成新的图片,然后再塞回自己的“脑子”里仔细分析。
这就像一个老练的工程师,拿着放大镜在图纸上一点点比对,而不是站在三米开外瞎瞅。
第二个场景:数手指不再靠蒙。
让以前的 AI 数图片里有几根手指,经常出错。现在的 Gemini 3 Flash 为了不犯错,会直接用 Python 代码在图片上画出边界框,给每根手指标上数字。
这就像是 AI 拿了一支红笔,在图片上做起了“视觉草稿纸”。它不是在凭空想象,而是基于像素级的精确理解在推理。
第三个场景:视觉数学题。
面对高密度的数据表格,以前的 LLM 经常产生幻觉,算错数。现在,Gemini 3 Flash 会把计算工作甩给确定性的 Python 环境。
它识别原始数据,写代码归一化处理,甚至直接用 Matplotlib 生成一张专业的柱状图。
用可验证的执行,代替了概率性的猜测。
5% 的提升是假象,真正的颠覆在于“降维打击”
看到这里,你可能会觉得:5-10% 的提升,好像也没多大?
这就是数据最具有迷惑性的地方。
正如网友 Voxyz_AI 在推文下的犀利评论:
“那个 5-10% 的基准测试提升完全低估了这项技术。真正的解锁在于,非工程师现在也能做以前需要写 Python 脚本才能做的图像分析了。这不是 10% 的更好,这是一个完全不同的产品类别。”
这才是重点。
以前,你要想把图片里的数据提取出来、做分析、画图表,你得是个程序员,得懂 Python,得写脚本。
现在,你只需要会说话。
Agentic Vision 把复杂的工程能力,封装成了一个极其简单的“Thinking”按钮。这不仅仅是模型变聪明了,这是门槛的消失。
它把一个“静态的观察者”,变成了一个“主动的执行者”。
现在就能玩,但这只是个开始
这个功能不是画饼,现在已经上线了。
开发者可以通过 Gemini API 在 Google AI Studio 和 Vertex AI 中使用。普通用户在 Gemini app 里,选择模型下拉菜单里的 “Thinking” 模式,就能体验到这种会“动手”的 AI。
目前的 Gemini 3 Flash 已经能隐式地决定何时放大细节。虽然像旋转图片或做视觉数学题目前还需要你稍微提示一下,但 Google 表示,未来的更新会让这些行为变得完全自动化。
他们还在探索给 AI 装更多工具,比如网络搜索、反向图片搜索。
甚至,这个能力未来不仅限于 Flash 模型,会扩展到更多尺寸的模型上。
AI 不再只是用眼睛看世界了,它开始学会用代码去触摸、去解剖、去重塑它看到的一切。
你准备好让 AI 帮你“动手”干活了吗?
参考链接:
https://x.com/GoogleAI/status/2016267526330601720