12款顶级AI防御全军覆没！OpenAI、Anthropic联合出手：这就是个笑话

安全团队正在大把花钱买“废铁”。

OpenAI、Anthropic 和 Google DeepMind 的研究人员在 2025 年 10 月扔出了一枚重磅炸弹。他们联手测试了 12 款市面上主流的 AI 防御系统，这些产品大多信誓旦旦地宣称自己拥有“接近零”的攻击成功率。

AI配图

结果呢？

AI配图

在研究人员的“自适应攻击”下，这些防御系统的绕过率全部飙升至 90% 以上。

有些甚至达到了 100%。

这意味着什么？意味着企业 CISO 们正在采购的安全产品，在面对真正的黑客时，可能连一层窗户纸都算不上。

AI配图

防御神话的破灭

这不是小打小闹的测试。

这篇名为《The Attacker Moves Second》的论文，集结了 14 位作者，甚至还设立了 2 万美元 的奖金池来激励攻击。他们测试了基于提示词、基于训练和基于过滤的三大类防御。

结局极其惨烈。

基于提示词的防御在自适应攻击下，攻击成功率高达 95% 到 99%；基于训练的方法也没好到哪去，绕过率达到了 96% 到 100%。

简单来说，这些 AI 安全产品被测试的对象，根本不像真实的黑客。

你的防火墙，根本看不懂“人话”

为什么传统的安全控件在 AI 面前瞬间崩塌？

因为 Web 应用防火墙（WAF）是无状态的，而 AI 攻击是有状态的。

这就好比一个只会查违禁品的安检员，碰上了一个会聊天的间谍。间谍不会直接带炸弹，他会先聊天气，聊家常，聊上十轮，建立信任，最后才轻描淡写地递出一句话。

这就是 Crescendo 攻击。

它把恶意请求拆解成看似无害的片段，分散在长达 10 轮的对话中。每一轮单独看都没问题，但连起来就是致命的指令。

还有一种叫 GCG 的攻击，通过自动化的梯度优化生成后缀，直接骗过模型。

这些都是公开的、有代码可用的攻击手段，而不是理论上的幻想。

"一句像'忽略之前的指令'这样无害的话，或者一个 Base64 编码的载荷，对 AI 应用来说，其破坏力就像缓冲区溢出对传统软件一样。"

Reputation 的 AI 副总裁 Carter Rees 说得直白：AI 攻击发生在语义层，基于签名的检测根本解析不了。

部署在狂飙，安全在裸奔

如果只是防御无效，那还可以慢慢修。

但现在的局面是：企业在踩油门，安全在踩刹车，结果刹车线断了。

Gartner 预测，到 2026 年底，40% 的企业应用将集成 AI 代理，而 2025 年这个比例还不到 5%。这是一条垂直向上的曲线。

安全呢？是一条平得不能再平的直线。

CrowdStrike 的 Counter Adversary Operations 高级副总裁 Adam Meyers 甩出了一个让人心惊肉跳的数据：他们观察到的最快突破时间只有 51 秒。

以前黑客搞一场攻击要三个月，现在有了 AI 编排，24 到 48 小时就能搞定。

2025 年 9 月，Anthropic 就 disrupted 首个 AI 编排的网络行动。攻击者每秒执行数千个请求，人类参与度降到了 10% 到 20%。

"威胁行为者已经意识到，试图将恶意软件带入现代企业，就像试图带着水瓶过机场一样；你很可能会被安保拦下。"

Meyers 打了个比方：既然带不进“水瓶”，他们干脆就不带了，直接用“合法”的手段绕过检测。

IBM 的报告更扎心：在遭受 AI 相关泄露的组织中，97% 缺乏访问控制。

谁在偷你的数据？

别以为这只是黑客电影里的情节，四种真实的攻击者画像正在利用这些防御漏洞疯狂收割。

外部对手正在把公开的攻击研究武器化。Crescendo、GCG、ArtPrompt，他们根据你的防御设计调整策略，就像研究人员做的那样。

恶意的 B2B 客户利用合法的 API 访问，通过推理攻击反向工程你的专有训练数据，或者窃取知识产权。研究发现，强化学习攻击在黑盒场景下特别有效，只需要 32 个会话，每个 5 轮。

被攻陷的 API 消费者利用受信任的凭证，通过操纵响应来泄露敏感输出或污染下游系统。

最致命的，往往是疏忽的内部人员。

IBM 报告显示，影子 AI 让平均泄露成本增加了 67 万美元。

"最普遍的威胁往往是疏忽的内部人员。这种'影子 AI'现象涉及员工将敏感的专有代码粘贴到公共 LLM 中以提高效率。"

三星的工程师们已经上过一课了：把专有的半导体代码喂给 ChatGPT，直接泄密。

别被销售忽悠了，问这七个问题

这篇论文传达了一个极其残酷的信息：通过隐晦来提供安全，在推理层根本行不通。

因为防御机制最终会出现在互联网规模的训练数据中，模型自己就会学会防御是怎么工作的，然后适应并绕过它。

如果你的企业正在采购 AI 安全产品，别听销售在那吹嘘“零攻击成功率”。把下面这七个问题甩在他们脸上：

面对自适应攻击者，你们的绕过率是多少？ 不是静态测试集，是那些知道你防御原理并且有时间迭代攻击的黑客。
怎么检测多轮攻击？ Crescendo 分 10 轮下套，无状态过滤器一个都抓不到。如果对方说自己是无状态的，直接走人。
怎么处理编码载荷？ ArtPrompt 把恶意指令藏在 ASCII 艺术里，Base64 和 Unicode 混淆能直接绕过文本过滤器。标准化分析是底线，只会签名匹配的产品就是瞎子。
输出也过滤吗？ 只控制输入防不住数据泄露。问问当输入和输出同时受到协调攻击时会发生什么。
怎么跨对话轮次跟踪上下文？ 对话式 AI 需要有状态分析。如果对方解释不清实现细节，那就是没有。
怎么测试那些理解你防御机制的攻击者？ 研究表明，一旦攻击者适应了特定的保护设计，防御就会失效。
面对新型攻击模式，更新防御的平均时间是多少？ 攻击方法论是公开的，新变体每周都出。跑不过攻击者的防御，永远是被吊打的命。

结语

OpenAI、Anthropic 和 Google DeepMind 的这份研究报告，就像一盆冷水泼在了过热的 AI 安全市场上。

目前的 AI 防御系统，是为那些“不适应”的假想敌设计的。

但真实的攻击者，会适应，会进化，会利用你的每一个盲点。

部署曲线在垂直向上，安全曲线却死水一潭。这中间巨大的缺口，就是未来数据泄露发生的坟场。

参考链接：
https://venturebeat.com/security/12-ai-defenses-claimed-near-zero-attack-success-researchers-broke-all-of-them