安全团队正在大把花钱买“废铁”。

OpenAI、Anthropic 和 Google DeepMind 的研究人员在 2025 年 10 月扔出了一枚重磅炸弹。他们联手测试了 12 款市面上主流的 AI 防御系统,这些产品大多信誓旦旦地宣称自己拥有“接近零”的攻击成功率。

AI配图

结果呢?

AI配图

在研究人员的“自适应攻击”下,这些防御系统的绕过率全部飙升至 90% 以上

有些甚至达到了 100%

这意味着什么?意味着企业 CISO 们正在采购的安全产品,在面对真正的黑客时,可能连一层窗户纸都算不上。

AI配图

防御神话的破灭

这不是小打小闹的测试。

这篇名为《The Attacker Moves Second》的论文,集结了 14 位作者,甚至还设立了 2 万美元 的奖金池来激励攻击。他们测试了基于提示词、基于训练和基于过滤的三大类防御。

结局极其惨烈。

基于提示词的防御在自适应攻击下,攻击成功率高达 95% 到 99%;基于训练的方法也没好到哪去,绕过率达到了 96% 到 100%

简单来说,这些 AI 安全产品被测试的对象,根本不像真实的黑客。

你的防火墙,根本看不懂“人话”

为什么传统的安全控件在 AI 面前瞬间崩塌?

因为 Web 应用防火墙(WAF)是无状态的,而 AI 攻击是有状态的。

这就好比一个只会查违禁品的安检员,碰上了一个会聊天的间谍。间谍不会直接带炸弹,他会先聊天气,聊家常,聊上十轮,建立信任,最后才轻描淡写地递出一句话。

这就是 Crescendo 攻击。

它把恶意请求拆解成看似无害的片段,分散在长达 10 轮的对话中。每一轮单独看都没问题,但连起来就是致命的指令。

还有一种叫 GCG 的攻击,通过自动化的梯度优化生成后缀,直接骗过模型。

这些都是公开的、有代码可用的攻击手段,而不是理论上的幻想。

"一句像'忽略之前的指令'这样无害的话,或者一个 Base64 编码的载荷,对 AI 应用来说,其破坏力就像缓冲区溢出对传统软件一样。"

Reputation 的 AI 副总裁 Carter Rees 说得直白:AI 攻击发生在语义层,基于签名的检测根本解析不了。

部署在狂飙,安全在裸奔

如果只是防御无效,那还可以慢慢修。

但现在的局面是:企业在踩油门,安全在踩刹车,结果刹车线断了。

Gartner 预测,到 2026 年底,40% 的企业应用将集成 AI 代理,而 2025 年这个比例还不到 5%。这是一条垂直向上的曲线。

安全呢?是一条平得不能再平的直线。

CrowdStrike 的 Counter Adversary Operations 高级副总裁 Adam Meyers 甩出了一个让人心惊肉跳的数据:他们观察到的最快突破时间只有 51 秒

以前黑客搞一场攻击要三个月,现在有了 AI 编排,24 到 48 小时就能搞定。

2025 年 9 月,Anthropic 就 disrupted 首个 AI 编排的网络行动。攻击者每秒执行数千个请求,人类参与度降到了 10% 到 20%

"威胁行为者已经意识到,试图将恶意软件带入现代企业,就像试图带着水瓶过机场一样;你很可能会被安保拦下。"

Meyers 打了个比方:既然带不进“水瓶”,他们干脆就不带了,直接用“合法”的手段绕过检测。

IBM 的报告更扎心:在遭受 AI 相关泄露的组织中,97% 缺乏访问控制。

谁在偷你的数据?

别以为这只是黑客电影里的情节,四种真实的攻击者画像正在利用这些防御漏洞疯狂收割。

外部对手正在把公开的攻击研究武器化。Crescendo、GCG、ArtPrompt,他们根据你的防御设计调整策略,就像研究人员做的那样。

恶意的 B2B 客户利用合法的 API 访问,通过推理攻击反向工程你的专有训练数据,或者窃取知识产权。研究发现,强化学习攻击在黑盒场景下特别有效,只需要 32 个会话,每个 5 轮。

被攻陷的 API 消费者利用受信任的凭证,通过操纵响应来泄露敏感输出或污染下游系统。

最致命的,往往是疏忽的内部人员

IBM 报告显示,影子 AI 让平均泄露成本增加了 67 万美元

"最普遍的威胁往往是疏忽的内部人员。这种'影子 AI'现象涉及员工将敏感的专有代码粘贴到公共 LLM 中以提高效率。"

三星的工程师们已经上过一课了:把专有的半导体代码喂给 ChatGPT,直接泄密。

别被销售忽悠了,问这七个问题

这篇论文传达了一个极其残酷的信息:通过隐晦来提供安全,在推理层根本行不通。

因为防御机制最终会出现在互联网规模的训练数据中,模型自己就会学会防御是怎么工作的,然后适应并绕过它。

如果你的企业正在采购 AI 安全产品,别听销售在那吹嘘“零攻击成功率”。把下面这七个问题甩在他们脸上:

  1. 面对自适应攻击者,你们的绕过率是多少? 不是静态测试集,是那些知道你防御原理并且有时间迭代攻击的黑客。
  2. 怎么检测多轮攻击? Crescendo 分 10 轮下套,无状态过滤器一个都抓不到。如果对方说自己是无状态的,直接走人。
  3. 怎么处理编码载荷? ArtPrompt 把恶意指令藏在 ASCII 艺术里,Base64 和 Unicode 混淆能直接绕过文本过滤器。标准化分析是底线,只会签名匹配的产品就是瞎子。
  4. 输出也过滤吗? 只控制输入防不住数据泄露。问问当输入和输出同时受到协调攻击时会发生什么。
  5. 怎么跨对话轮次跟踪上下文? 对话式 AI 需要有状态分析。如果对方解释不清实现细节,那就是没有。
  6. 怎么测试那些理解你防御机制的攻击者? 研究表明,一旦攻击者适应了特定的保护设计,防御就会失效。
  7. 面对新型攻击模式,更新防御的平均时间是多少? 攻击方法论是公开的,新变体每周都出。跑不过攻击者的防御,永远是被吊打的命。

结语

OpenAI、Anthropic 和 Google DeepMind 的这份研究报告,就像一盆冷水泼在了过热的 AI 安全市场上。

目前的 AI 防御系统,是为那些“不适应”的假想敌设计的。

但真实的攻击者,会适应,会进化,会利用你的每一个盲点。

部署曲线在垂直向上,安全曲线却死水一潭。这中间巨大的缺口,就是未来数据泄露发生的坟场。

参考链接:
https://venturebeat.com/security/12-ai-defenses-claimed-near-zero-attack-success-researchers-broke-all-of-them