想象一下,有一个不知疲倦的黑客。
它不睡觉,不喝咖啡,不需要工资。
它的唯一目标就是盯着区块链上那些锁着数十亿美元的智能合约,寻找哪怕一丁点的裂缝,然后把里面的钱洗劫一空。
就在昨天,OpenAI 重磅宣布,他们联合顶级加密投资机构 Paradigm,发布了一个名为 EVMbench 的基准测试。
说白了,这就是一套“黑客考试题”,专门用来衡量 AI 智能体在智能合约上的攻击和防御能力。
结果有点吓人。
考题只有 120 道,但考生有点“猛”
先说说这个考试是怎么回事。
EVMbench 并不是随便瞎编的题目。它从 40 次真实的审计中,精挑细选了 120 个高严重性的漏洞。
大部分题目来自 Code4rena 这种公开的代码审计竞赛,甚至还有一部分来自 Tempo 区块链的安全审计过程。
这些都是真金白银的实战案例,不是过家家。
OpenAI 给 AI 设定了三种模式,就像是游戏里的三个角色:
- Detect(侦探):去代码库里找 bug,看能找回多少。
- Patch(医生):把漏洞修好,但前提是不能把原本的功能搞崩。
- Exploit(强盗):这是最刺激的——在沙盒环境里,直接发起攻击,把合约里的钱卷走。
有意思的是,AI 在这三个角色里的表现,简直就是人性的写照。
它是顶级强盗,却是个懒惰侦探
我们直接看数据,
在 “Exploit”(利用漏洞) 这个模式下,最新的 GPT-5.3-Codex 拿到了 72.2% 的分数。
这是什么概念?仅仅半年前,GPT-5 在这个测试上的得分还只有 31.9%。
短短六个月,成功率翻了一倍多。
这个进步速度有点不讲道理了。这意味着 AI 攻击智能合约的能力,正在以指数级曲线狂飙。
但是,
当 AI 被要求去 “Detect”(检测) 漏洞时,它表现得像个只想摸鱼的实习生。往往找到一个漏洞就停了,懒得再去深挖剩下的。
而在 “Patch”(修补) 时,它又显得笨手笨脚,想要在不破坏功能的前提下修好微妙的 bug,对它来说依然是个巨大的挑战。
这不就是跟人类学的坏毛病嘛:
搞破坏总是比搞建设容易得多,而且只要有明确的金钱激励(比如“把钱转走”),它的潜力就被彻底激发了。
别慌,还不是真正的“末日”
看到这里,你可能会想:我的加密资产还安全吗?
老实讲,先别急
EVMbench 虽然硬核,但它毕竟还是个“考场”。OpenAI 自己也承认了局限性。
首先,这些漏洞虽然来自真实的审计竞赛,但现实中那些经过千锤百炼、锁定了海量资金的主流合约,安全性要比这些测试题高得多。
其次,现在的测试环境是在本地的 Anvil 节点上跑的,是一个干净的、隔离的沙盒。
现实中的区块链环境要复杂得多,涉及到复杂的时序机制和主网分叉,这些目前还没法完全模拟。
所以,AI 现在虽然能在考场上考 72 分,但这不代表它马上就能去黑掉以太坊上的头部 DeFi 协议。
真正的战争:AI 对 AI
不过,这并不意味着我们可以高枕无忧。
评论区里有个网友说得特别扎心:“72% 的利用成功率意味着 AI 找漏洞的速度比大多数安全团队都快。”
这才是核心问题。
Web3 安全行业正在面临一个前所未有的变局。
以前是“黑客 vs 安全团队”,未来很可能是 “AI 黑客 vs AI 审计员”。
OpenAI 显然也意识到了这种双刃剑的风险。
他们一边发布这个可能被用于攻击的基准测试,一边赶紧掏出了防御手段。
他们宣布了 1000 万美元的 API 积分,专门支持那些做防御性研究的开源项目和关键基础设施。还在扩大安全研究智能体 Aardvark 的私测版,希望能帮开发者免费扫描代码。
这其实是在和时间赛跑。
写在最后
智能合约里锁着 1000 亿+ 美元的资产,这块肉太香了,AI 不可能不闻着味儿过来。
现在的局面很清晰:攻击者已经在用 AI 提速了,防御者如果还靠纯人力,恐怕连车尾灯都看不见。
问题或许不再是 AI 会不会取代安全审计员,而是:
在你的项目被 AI 黑客攻破之前,你能先请得起 AI 审计员吗?
参考链接:
https://x.com/OpenAI/status/2024193883748651102