如果你在工厂里看到一只机器狗正盯着压力表看,别惊讶,它可能比老师傅读得还准。
就在刚刚,Google DeepMind 扔出了一个新的“炸弹”——Gemini Robotics-ER 1.6。
这不仅仅是个版本号的迭代,它解决了一个困扰机器人界几十年的痛点:怎么让机器人真正“看懂”物理世界?
以前的机器人,充其量是个“瞎子”加“聋子”,只能死板地执行代码。现在的 ER 1.6,学会了“具身推理”,简单说,就是有了脑子,能自己判断事儿了。
会“指”东西,才是大智慧
老实讲,很多人可能觉得“指着东西”这事儿太低级了。
错了。
在机器人眼里,能精准地“指”,代表它真的理解了空间关系。Gemini Robotics-ER 1.6 这次把“指向”玩出了花。它不再是指哪打哪的傻瓜,而是能理解复杂的逻辑。
比如你让它“把那个最小的东西指出来”,或者“把所有能塞进蓝杯子里的东西指出来”。这需要极强的空间推理和逻辑判断。
DeepMind 给了一个很直观的例子。桌子上堆满了锤子、剪刀、钳子。
之前的模型 ER 1.5 就像个刚近视的人,数不对锤子有几把,甚至还会产生幻觉,指着空气说那是独轮车。而 ER 1.6?它冷静地数出了 2 把锤子、1 把剪刀、6 把钳子,甚至还能把园艺工具归成一类。
说实话,这不仅是识别能力的提升,更是“幻觉”问题的一次大清洗。
工业现场的“老师傅”
最有意思的,其实是这次的新功能——仪表读取。
这事儿听着不性感,但真的很贵。
很多工业现场,比如化工厂、变电站,还保留着大量的老式指针仪表。你要是想把它们全换成数字化传感器,成本是个天文数字。这时候,能跑能跳的机器狗如果能看一眼就把数记下来,那就是巨大的生产力。
DeepMind 这次显然是有备而来,他们直接拉上了波士顿动力。
Spot 机器狗满地跑,Gemini 模型负责看。这个组合拳打得相当漂亮。不管是圆形压力表,还是液位计,甚至是现代数字读数,ER 1.6 都能搞定。
这可不是简单的 OCR。模型得先“看”到指针,理解刻度,还得处理拍照角度带来的透视畸变,甚至有的表盘还有多个指针代表不同的小数位。
这得有多准?数据说话:
在仪表读取任务上,上一代 ER 1.5 的成功率只有 23%,简直没法用。Gemini 3.0 Flash 勉强到了 67%。而 ER 1.6 呢?直接干到了 86%。如果开启“智能视觉”,甚至能飙到 93%。
波士顿动力 Spot 项目的 VP Marco da Silva 也直言不讳:这能让 Spot 完全自主地应对现实挑战。
它知道什么时候该“停手”
机器人最怕什么?怕它不懂停。
以前那种只会执行死命令的机器,一旦遇到意外,往往就是灾难现场。ER 1.6 这次把重点放在了成功检测上。
这就好比老板让你干活,干完了你得知道喊一声“搞定”,而不是傻乎乎地一直干下去。
这就需要多视角理解。现在的机器人身上都有好几个摄像头,有头顶的,有手腕上的。ER 1.6 能把这些不同角度的画面拼凑成一个完整的逻辑,哪怕中间被挡住了,或者光线不好,它也能判断任务是不是完成了。
比如那个把蓝笔放进黑笔筒的任务,看似简单,实际上需要极高的空间认知能力。
当然,最关键的还是安全。
DeepMind 说这是他们“最安全的机器人模型”。这可不是吹牛,他们在测试中加入了对抗性的空间推理任务。比如,模型现在能理解“不要处理液体”、“不要拿超过 20kg 的东西”这种物理约束。
数据不会骗人,在识别现实伤害风险的任务上,ER 1.6 比基准模型 Gemini 3.0 Flash 在文本和视频识别上分别高出了 6% 和 10%。
理想很丰满,现实有延迟
虽然 DeepMind 把 ER 1.6 吹得天花乱坠,但我还是得泼盆冷水。
评论区里有人提到了一个很现实的问题:延迟。
确实,让机器人写代码、跑视觉任务、再回来给答案,这一套流程下来,目前的推理速度还是个瓶颈。虽然没提具体的 Hz,但作为“具身推理”模型,它肯定快不到哪去。
还有一个很有意思的质疑声:为什么不直接装传感器?
有人觉得,让机器狗去读模拟仪表盘,有点“脱裤子放屁”。都 2026 年了,为什么工厂还不把仪表换成数字接口?
这其实就是典型的“技术洁癖”。现实世界不是实验室,老旧设施存量巨大,数字化改造的成本往往比买个机器人高得多。能用 AI 解决“最后一公里”的非标问题,才是真正的降本增效。
而且,正如一位评论者所说:“如果机器人拆洗碗机时打破了一个盘子,这就是巨大的失败。”
机器人容错率极低。DeepMind 现在展示的只是模型能力,真正落地到家庭、工厂,那种“GPT-2 级别”的机器人错误率,可能还是会让普通用户抓狂。
不过,从 Gemini Robotics-ER 1.5 到 1.6,我们看到了一个明显的趋势:机器人正在从“听指令的瞎子”,变成“会思考的观察者”。
这事儿,比单纯的算力堆叠要有意思得多。
【锐评】:能读懂仪表盘确实解决了工业界的“老破小”难题,但推理速度和成本若不降下来,这双“慧眼”恐怕只能是实验室里的奢侈品。
参考链接:
https://deepmind.google/blog/gemini-robotics-er-1-6/