AI 安全一直是个烧钱的游戏。

为了让大模型不输出黑客代码,通常的做法是再雇佣一个强大的模型当“安检员”,盯着每一个输入。

这会让你的计算账单直接翻倍。

但就在昨天,Google DeepMind 悄悄发了一篇论文,宣布他们找到了一个“漏洞”。

一种名为 “探针” 的技术,不仅成本只有传统方法的万分之一,在捕捉网络攻击指令时,甚至比直接用 Gemini 2.5 Pro 模型还要准。

AI配图

这场关于 AI 安全的军备竞赛,可能正在变天。

大脑内部的“读心术”

我们先搞清楚问题在哪。

现在的 AI 太强了,强到能辅助黑客进行网络攻击,甚至涉及生化武器(CBRN)。

为了防止这种“滥用”,最直观的办法是让模型学会拒绝。但论文直言不讳地指出:光靠训练模型拒绝,根本防不住,现在的对抗攻击太容易绕过这种防御了。

AI配图

于是,大家只能搞“监控系统”。

以前的做法是搞个“法官模型”,把用户的输入先给法官看一遍,法官说“没问题”,主模型再干活。

但这有个致命伤:

用一个大模型去监控另一个大模型,推理成本直接 double。这对于每天处理亿万次请求的 Google 来说,是不可承受之重。

DeepMind 的思路很野:既然主模型已经在处理数据了,为什么不直接偷看它的脑子

这就是“激活探针”。

它不读你的文字,而是读取模型内部神经元被激活时的“隐藏状态”。这就好比安检员不听你在说什么,而是直接看你脑电波有没有异常。

因为“脑电波”在计算过程中本来就产生了,探针只需要在上面跑一个极小的线性分类器。

成本几乎可以忽略不计。

Figure 2: Different probing classifiers

长文本里的“隐形杀手”

听起来很完美,对吧?

但 DeepMind 很快就踩坑了。

他们发现,传统的探针有个致命弱点:“短视”

在实验室里用短文本训练,效果杠杠的。一上线,遇到用户上传几万字的代码库或长文档,探针就瞎了。

这叫“分布偏移”。

更麻烦的是,如果直接用长文本去训练探针,由于内存带宽的限制,训练成本会暴涨一个数量级。

这就陷入了两难:要么便宜但瞎,要么准但贵。

而且,网络安全攻击特别难防。因为黑客的指令和正常程序员的代码,长得太像了。唯一的区别往往藏在长篇大论里的某一行。

如果你用传统的“平均池化”方法去读脑电波,那一行危险的信号会被成千上万行正常代码淹没,就像一滴墨水掉进大海。

狙击手与特种兵

为了解决这个“大海捞针”的难题,DeepMind 搞出了一套组合拳。

第一招:MultiMax 架构——从“看平均”变成“看极值”。

以前的探针喜欢把所有脑电波取个平均值。MultiMax 不干这个,它直接在长文本里找那个**“最危险”的峰值**。

这就好比安检员不再看你的平均表情,而是盯着你那一瞬间的眼神闪烁。

论文数据显示,这种新架构在长文本上的分类准确率,直接碾压了以前的线性探针和注意力探针。

第二招:级联分类器——让便宜的和贵的打配合。

既然探针便宜但偶尔会拿不准,大模型准但太贵,为什么不把它们串起来?

DeepMind 设计了一个漏斗机制:

绝大多数一眼假或一眼真的请求,全交给探针处理,成本几乎为零。

只有当探针觉得“这人有问题,但我拿不准”的时候,才会唤醒昂贵的 Gemini 2.5 Flash 模型来进行二次研判。

Figure 1: Performance vs Cost

结果令人咋舌。

这种“探针+大模型”的组合拳,漏报率(FNR)比单独使用大模型还要低,但成本只有单独使用大模型的五十分之一(1/50)。

在某些配置下,探针的成本仅为 LLM 监控的 万分之一(1/10,000),而性能却相差无几。

甚至,他们的探针在测试中直接打败了 Gemini 2.5 Flash Lite 模型。

谁是真正的赢家?

这篇论文不是纯理论,它已经实战了。

AI配图

作者 Arthur Conmy 在推特上直言,这些研究已经直接指导了 Gemini 线上环境的防御部署。

但这并不意味着我们可以高枕无忧。

论文最后泼了一盆冷水:对于“自适应对抗攻击”,这些探针依然脆弱。

什么是自适应攻击?就是黑客知道你有探针,专门针对探针的弱点去构造攻击指令。这种高级别的猫鼠游戏,目前看来还没有尽头。

DeepMind 这次赢在了“工程落地”和“成本控制”。

他们证明了,在 AI 安全这个无底洞里,有时候不需要堆更多的算力,只需要更聪明地“偷看”一眼大脑。

这场关于 AI 安全的博弈,才刚刚开始。

参考链接:
https://x.com/ArthurConmy/status/2013285602070770036