想象一下,有一个不知疲倦的黑客。

它不睡觉,不喝咖啡,不需要工资。

它的唯一目标就是盯着区块链上那些锁着数十亿美元的智能合约,寻找哪怕一丁点的裂缝,然后把里面的钱洗劫一空。

image

就在昨天,OpenAI 重磅宣布,他们联合顶级加密投资机构 Paradigm,发布了一个名为 EVMbench 的基准测试。

说白了,这就是一套“黑客考试题”,专门用来衡量 AI 智能体在智能合约上的攻击和防御能力。

结果有点吓人。

考题只有 120 道,但考生有点“猛”

image

先说说这个考试是怎么回事。

EVMbench 并不是随便瞎编的题目。它从 40 次真实的审计中,精挑细选了 120 个高严重性的漏洞

大部分题目来自 Code4rena 这种公开的代码审计竞赛,甚至还有一部分来自 Tempo 区块链的安全审计过程。

这些都是真金白银的实战案例,不是过家家。

OpenAI 给 AI 设定了三种模式,就像是游戏里的三个角色:

  • Detect(侦探)去代码库里找 bug,看能找回多少。
  • Patch(医生)把漏洞修好,但前提是不能把原本的功能搞崩。
  • Exploit(强盗)这是最刺激的——在沙盒环境里,直接发起攻击,把合约里的钱卷走。

有意思的是,AI 在这三个角色里的表现,简直就是人性的写照。

它是顶级强盗,却是个懒惰侦探

我们直接看数据,

“Exploit”(利用漏洞) 这个模式下,最新的 GPT-5.3-Codex 拿到了 72.2% 的分数。

这是什么概念?仅仅半年前,GPT-5 在这个测试上的得分还只有 31.9%。

短短六个月,成功率翻了一倍多。

这个进步速度有点不讲道理了。这意味着 AI 攻击智能合约的能力,正在以指数级曲线狂飙。

但是,

当 AI 被要求去 “Detect”(检测) 漏洞时,它表现得像个只想摸鱼的实习生。往往找到一个漏洞就停了,懒得再去深挖剩下的。

而在 “Patch”(修补) 时,它又显得笨手笨脚,想要在不破坏功能的前提下修好微妙的 bug,对它来说依然是个巨大的挑战。

这不就是跟人类学的坏毛病嘛:

搞破坏总是比搞建设容易得多,而且只要有明确的金钱激励(比如“把钱转走”),它的潜力就被彻底激发了。

别慌,还不是真正的“末日”

看到这里,你可能会想:我的加密资产还安全吗?

老实讲,先别急

image

EVMbench 虽然硬核,但它毕竟还是个“考场”。OpenAI 自己也承认了局限性。

首先,这些漏洞虽然来自真实的审计竞赛,但现实中那些经过千锤百炼、锁定了海量资金的主流合约,安全性要比这些测试题高得多。

其次,现在的测试环境是在本地的 Anvil 节点上跑的,是一个干净的、隔离的沙盒。

现实中的区块链环境要复杂得多,涉及到复杂的时序机制和主网分叉,这些目前还没法完全模拟。

所以,AI 现在虽然能在考场上考 72 分,但这不代表它马上就能去黑掉以太坊上的头部 DeFi 协议。

真正的战争:AI 对 AI

不过,这并不意味着我们可以高枕无忧。

评论区里有个网友说得特别扎心:“72% 的利用成功率意味着 AI 找漏洞的速度比大多数安全团队都快。”

这才是核心问题。

Web3 安全行业正在面临一个前所未有的变局。

以前是“黑客 vs 安全团队”,未来很可能是 “AI 黑客 vs AI 审计员”

OpenAI 显然也意识到了这种双刃剑的风险。

他们一边发布这个可能被用于攻击的基准测试,一边赶紧掏出了防御手段。

他们宣布了 1000 万美元的 API 积分,专门支持那些做防御性研究的开源项目和关键基础设施。还在扩大安全研究智能体 Aardvark 的私测版,希望能帮开发者免费扫描代码。

这其实是在和时间赛跑。

写在最后

智能合约里锁着 1000 亿+ 美元的资产,这块肉太香了,AI 不可能不闻着味儿过来。

现在的局面很清晰:攻击者已经在用 AI 提速了,防御者如果还靠纯人力,恐怕连车尾灯都看不见。

问题或许不再是 AI 会不会取代安全审计员,而是:

在你的项目被 AI 黑客攻破之前,你能先请得起 AI 审计员吗?

参考链接:
https://x.com/OpenAI/status/2024193883748651102