AI 安全一直是个烧钱的游戏。
为了让大模型不输出黑客代码,通常的做法是再雇佣一个强大的模型当“安检员”,盯着每一个输入。
这会让你的计算账单直接翻倍。
但就在昨天,Google DeepMind 悄悄发了一篇论文,宣布他们找到了一个“漏洞”。
一种名为 “探针” 的技术,不仅成本只有传统方法的万分之一,在捕捉网络攻击指令时,甚至比直接用 Gemini 2.5 Pro 模型还要准。
这场关于 AI 安全的军备竞赛,可能正在变天。
大脑内部的“读心术”
我们先搞清楚问题在哪。
现在的 AI 太强了,强到能辅助黑客进行网络攻击,甚至涉及生化武器(CBRN)。
为了防止这种“滥用”,最直观的办法是让模型学会拒绝。但论文直言不讳地指出:光靠训练模型拒绝,根本防不住,现在的对抗攻击太容易绕过这种防御了。
于是,大家只能搞“监控系统”。
以前的做法是搞个“法官模型”,把用户的输入先给法官看一遍,法官说“没问题”,主模型再干活。
但这有个致命伤:贵。
用一个大模型去监控另一个大模型,推理成本直接 double。这对于每天处理亿万次请求的 Google 来说,是不可承受之重。
DeepMind 的思路很野:既然主模型已经在处理数据了,为什么不直接偷看它的脑子?
这就是“激活探针”。
它不读你的文字,而是读取模型内部神经元被激活时的“隐藏状态”。这就好比安检员不听你在说什么,而是直接看你脑电波有没有异常。
因为“脑电波”在计算过程中本来就产生了,探针只需要在上面跑一个极小的线性分类器。
成本几乎可以忽略不计。
长文本里的“隐形杀手”
听起来很完美,对吧?
但 DeepMind 很快就踩坑了。
他们发现,传统的探针有个致命弱点:“短视”。
在实验室里用短文本训练,效果杠杠的。一上线,遇到用户上传几万字的代码库或长文档,探针就瞎了。
这叫“分布偏移”。
更麻烦的是,如果直接用长文本去训练探针,由于内存带宽的限制,训练成本会暴涨一个数量级。
这就陷入了两难:要么便宜但瞎,要么准但贵。
而且,网络安全攻击特别难防。因为黑客的指令和正常程序员的代码,长得太像了。唯一的区别往往藏在长篇大论里的某一行。
如果你用传统的“平均池化”方法去读脑电波,那一行危险的信号会被成千上万行正常代码淹没,就像一滴墨水掉进大海。
狙击手与特种兵
为了解决这个“大海捞针”的难题,DeepMind 搞出了一套组合拳。
第一招:MultiMax 架构——从“看平均”变成“看极值”。
以前的探针喜欢把所有脑电波取个平均值。MultiMax 不干这个,它直接在长文本里找那个**“最危险”的峰值**。
这就好比安检员不再看你的平均表情,而是盯着你那一瞬间的眼神闪烁。
论文数据显示,这种新架构在长文本上的分类准确率,直接碾压了以前的线性探针和注意力探针。
第二招:级联分类器——让便宜的和贵的打配合。
既然探针便宜但偶尔会拿不准,大模型准但太贵,为什么不把它们串起来?
DeepMind 设计了一个漏斗机制:
绝大多数一眼假或一眼真的请求,全交给探针处理,成本几乎为零。
只有当探针觉得“这人有问题,但我拿不准”的时候,才会唤醒昂贵的 Gemini 2.5 Flash 模型来进行二次研判。
结果令人咋舌。
这种“探针+大模型”的组合拳,漏报率(FNR)比单独使用大模型还要低,但成本只有单独使用大模型的五十分之一(1/50)。
在某些配置下,探针的成本仅为 LLM 监控的 万分之一(1/10,000),而性能却相差无几。
甚至,他们的探针在测试中直接打败了 Gemini 2.5 Flash Lite 模型。
谁是真正的赢家?
这篇论文不是纯理论,它已经实战了。
作者 Arthur Conmy 在推特上直言,这些研究已经直接指导了 Gemini 线上环境的防御部署。
但这并不意味着我们可以高枕无忧。
论文最后泼了一盆冷水:对于“自适应对抗攻击”,这些探针依然脆弱。
什么是自适应攻击?就是黑客知道你有探针,专门针对探针的弱点去构造攻击指令。这种高级别的猫鼠游戏,目前看来还没有尽头。
DeepMind 这次赢在了“工程落地”和“成本控制”。
他们证明了,在 AI 安全这个无底洞里,有时候不需要堆更多的算力,只需要更聪明地“偷看”一眼大脑。
这场关于 AI 安全的博弈,才刚刚开始。
参考链接:
https://x.com/ArthurConmy/status/2013285602070770036