Google DeepMind 最新论文：用万分之一成本，给 Gemini 装上“隐形防弹衣”

AI 安全一直是个烧钱的游戏。

为了让大模型不输出黑客代码，通常的做法是再雇佣一个强大的模型当“安检员”，盯着每一个输入。

这会让你的计算账单直接翻倍。

但就在昨天，Google DeepMind 悄悄发了一篇论文，宣布他们找到了一个“漏洞”。

一种名为 “探针” 的技术，不仅成本只有传统方法的万分之一，在捕捉网络攻击指令时，甚至比直接用 Gemini 2.5 Pro 模型还要准。

AI配图

这场关于 AI 安全的军备竞赛，可能正在变天。

大脑内部的“读心术”

我们先搞清楚问题在哪。

现在的 AI 太强了，强到能辅助黑客进行网络攻击，甚至涉及生化武器（CBRN）。

为了防止这种“滥用”，最直观的办法是让模型学会拒绝。但论文直言不讳地指出：光靠训练模型拒绝，根本防不住，现在的对抗攻击太容易绕过这种防御了。

AI配图

于是，大家只能搞“监控系统”。

以前的做法是搞个“法官模型”，把用户的输入先给法官看一遍，法官说“没问题”，主模型再干活。

但这有个致命伤：贵。

用一个大模型去监控另一个大模型，推理成本直接 double。这对于每天处理亿万次请求的 Google 来说，是不可承受之重。

DeepMind 的思路很野：既然主模型已经在处理数据了，为什么不直接偷看它的脑子？

这就是“激活探针”。

它不读你的文字，而是读取模型内部神经元被激活时的“隐藏状态”。这就好比安检员不听你在说什么，而是直接看你脑电波有没有异常。

因为“脑电波”在计算过程中本来就产生了，探针只需要在上面跑一个极小的线性分类器。

成本几乎可以忽略不计。

Figure 2: Different probing classifiers

长文本里的“隐形杀手”

听起来很完美，对吧？

但 DeepMind 很快就踩坑了。

他们发现，传统的探针有个致命弱点：“短视”。

在实验室里用短文本训练，效果杠杠的。一上线，遇到用户上传几万字的代码库或长文档，探针就瞎了。

这叫“分布偏移”。

更麻烦的是，如果直接用长文本去训练探针，由于内存带宽的限制，训练成本会暴涨一个数量级。

这就陷入了两难：要么便宜但瞎，要么准但贵。

而且，网络安全攻击特别难防。因为黑客的指令和正常程序员的代码，长得太像了。唯一的区别往往藏在长篇大论里的某一行。

如果你用传统的“平均池化”方法去读脑电波，那一行危险的信号会被成千上万行正常代码淹没，就像一滴墨水掉进大海。

狙击手与特种兵

为了解决这个“大海捞针”的难题，DeepMind 搞出了一套组合拳。

第一招：MultiMax 架构——从“看平均”变成“看极值”。

以前的探针喜欢把所有脑电波取个平均值。MultiMax 不干这个，它直接在长文本里找那个**“最危险”的峰值**。

这就好比安检员不再看你的平均表情，而是盯着你那一瞬间的眼神闪烁。

论文数据显示，这种新架构在长文本上的分类准确率，直接碾压了以前的线性探针和注意力探针。

第二招：级联分类器——让便宜的和贵的打配合。

既然探针便宜但偶尔会拿不准，大模型准但太贵，为什么不把它们串起来？

DeepMind 设计了一个漏斗机制：

绝大多数一眼假或一眼真的请求，全交给探针处理，成本几乎为零。

只有当探针觉得“这人有问题，但我拿不准”的时候，才会唤醒昂贵的 Gemini 2.5 Flash 模型来进行二次研判。

Figure 1: Performance vs Cost

结果令人咋舌。

这种“探针+大模型”的组合拳，漏报率（FNR）比单独使用大模型还要低，但成本只有单独使用大模型的五十分之一（1/50）。

在某些配置下，探针的成本仅为 LLM 监控的 万分之一（1/10,000），而性能却相差无几。

甚至，他们的探针在测试中直接打败了 Gemini 2.5 Flash Lite 模型。

谁是真正的赢家？

这篇论文不是纯理论，它已经实战了。

AI配图

作者 Arthur Conmy 在推特上直言，这些研究已经直接指导了 Gemini 线上环境的防御部署。

但这并不意味着我们可以高枕无忧。

论文最后泼了一盆冷水：对于“自适应对抗攻击”，这些探针依然脆弱。

什么是自适应攻击？就是黑客知道你有探针，专门针对探针的弱点去构造攻击指令。这种高级别的猫鼠游戏，目前看来还没有尽头。

DeepMind 这次赢在了“工程落地”和“成本控制”。

他们证明了，在 AI 安全这个无底洞里，有时候不需要堆更多的算力，只需要更聪明地“偷看”一眼大脑。

这场关于 AI 安全的博弈，才刚刚开始。

参考链接：
https://x.com/ArthurConmy/status/2013285602070770036