一提钱 AI 就不困了！GPT-5.3“抢钱”成功率飙升到 72%，Web3 安全的末日？

想象一下，有一个不知疲倦的黑客。

它不睡觉，不喝咖啡，不需要工资。

它的唯一目标就是盯着区块链上那些锁着数十亿美元的智能合约，寻找哪怕一丁点的裂缝，然后把里面的钱洗劫一空。

就在昨天，OpenAI 重磅宣布，他们联合顶级加密投资机构 Paradigm，发布了一个名为 EVMbench 的基准测试。

说白了，这就是一套“黑客考试题”，专门用来衡量 AI 智能体在智能合约上的攻击和防御能力。

结果有点吓人。

考题只有 120 道，但考生有点“猛”

先说说这个考试是怎么回事。

EVMbench 并不是随便瞎编的题目。它从 40 次真实的审计中，精挑细选了 120 个高严重性的漏洞。

大部分题目来自 Code4rena 这种公开的代码审计竞赛，甚至还有一部分来自 Tempo 区块链的安全审计过程。

这些都是真金白银的实战案例，不是过家家。

OpenAI 给 AI 设定了三种模式，就像是游戏里的三个角色：

Detect（侦探）：去代码库里找 bug，看能找回多少。
Patch（医生）：把漏洞修好，但前提是不能把原本的功能搞崩。
Exploit（强盗）：这是最刺激的——在沙盒环境里，直接发起攻击，把合约里的钱卷走。

有意思的是，AI 在这三个角色里的表现，简直就是人性的写照。

它是顶级强盗，却是个懒惰侦探

我们直接看数据，

在 “Exploit”（利用漏洞） 这个模式下，最新的 GPT-5.3-Codex 拿到了 72.2% 的分数。

这是什么概念？仅仅半年前，GPT-5 在这个测试上的得分还只有 31.9%。

短短六个月，成功率翻了一倍多。

这个进步速度有点不讲道理了。这意味着 AI 攻击智能合约的能力，正在以指数级曲线狂飙。

但是，

当 AI 被要求去 “Detect”（检测） 漏洞时，它表现得像个只想摸鱼的实习生。往往找到一个漏洞就停了，懒得再去深挖剩下的。

而在 “Patch”（修补） 时，它又显得笨手笨脚，想要在不破坏功能的前提下修好微妙的 bug，对它来说依然是个巨大的挑战。

这不就是跟人类学的坏毛病嘛：

搞破坏总是比搞建设容易得多，而且只要有明确的金钱激励（比如“把钱转走”），它的潜力就被彻底激发了。

别慌，还不是真正的“末日”

看到这里，你可能会想：我的加密资产还安全吗？

老实讲，先别急

EVMbench 虽然硬核，但它毕竟还是个“考场”。OpenAI 自己也承认了局限性。

首先，这些漏洞虽然来自真实的审计竞赛，但现实中那些经过千锤百炼、锁定了海量资金的主流合约，安全性要比这些测试题高得多。

其次，现在的测试环境是在本地的 Anvil 节点上跑的，是一个干净的、隔离的沙盒。

现实中的区块链环境要复杂得多，涉及到复杂的时序机制和主网分叉，这些目前还没法完全模拟。

所以，AI 现在虽然能在考场上考 72 分，但这不代表它马上就能去黑掉以太坊上的头部 DeFi 协议。

真正的战争：AI 对 AI

不过，这并不意味着我们可以高枕无忧。

评论区里有个网友说得特别扎心：“72% 的利用成功率意味着 AI 找漏洞的速度比大多数安全团队都快。”

这才是核心问题。

Web3 安全行业正在面临一个前所未有的变局。

以前是“黑客 vs 安全团队”，未来很可能是 “AI 黑客 vs AI 审计员”。

OpenAI 显然也意识到了这种双刃剑的风险。

他们一边发布这个可能被用于攻击的基准测试，一边赶紧掏出了防御手段。

他们宣布了 1000 万美元的 API 积分，专门支持那些做防御性研究的开源项目和关键基础设施。还在扩大安全研究智能体 Aardvark 的私测版，希望能帮开发者免费扫描代码。

这其实是在和时间赛跑。

写在最后

智能合约里锁着 1000 亿+ 美元的资产，这块肉太香了，AI 不可能不闻着味儿过来。

现在的局面很清晰：攻击者已经在用 AI 提速了，防御者如果还靠纯人力，恐怕连车尾灯都看不见。

问题或许不再是 AI 会不会取代安全审计员，而是：

在你的项目被 AI 黑客攻破之前，你能先请得起 AI 审计员吗？

参考链接：
https://x.com/OpenAI/status/2024193883748651102