一个反直觉的发现
2026年4月,Anthropic扔下一颗重磅炸弹。
他们发布了一个代号叫"Mythos"的AI模型,号称能自主发现操作系统和浏览器中的零日漏洞。27年的OpenBSD漏洞、16年的FFmpeg漏洞、FreeBSD远程代码执行——这些让安全研究员熬秃头的硬骨头,Mythos"自动"就啃下来了。
Anthropic为此拉了一个联盟,拉了1亿美金的额度,4百万的真金白银捐给开源安全组织。
阵仗很大。故事很燃。
但有个叫AISLE的公司,做了个实验。
他们把Mythos公告里秀的那些漏洞代码,单独拎出来,喂给了一些小模型。
结果?
8个模型,8个都检测到了那个FreeBSD漏洞。
最便宜的那个,只有36亿参数,每百万token成本——0.11美元。
一个51亿参数的开源模型,把OpenBSD那个27年漏洞的完整利用链也跑出来了。
问题来了:Anthropic花了多大代价训练Mythos?这些小模型又花了多少?
这还不是最打脸的。
小模型吊打大模型
AISLE做了三轮测试,每轮都在颠覆认知。
第一轮:假阳性测试。
他们找了个OWASP基准测试里的Java代码片段,看起来像SQL注入,但实际上是安全的——用户输入在第4行就被remove(0)扔掉了。
结果:
小模型对了。大模型全跪。
GPT-OSS-20b(36亿参数):"用户输入没到SQL语句,这代码不脆弱。"
DeepSeek R1(开源):"参数被list操作盖住了,结论是安全。"
Claude Sonnet 4.5(Anthropic前沿模型):"Index 1返回的是param,这是SQL注入!"
**它算错了。**实际上返回的是常量"moresafe"。
13个Anthropic模型,只有2个勉强及格。反而是几个几亿参数的开源小模型,干净利落对了。
第二轮:FreeBSD漏洞检测。
这是Mythos公告里的皇冠明珠——17年前的NFS远程代码执行漏洞,能直接拿系统root。
AISLE把漏洞函数喂给8个模型,要求它们分析。
8个全对。
最小的GPT-OSS-20b,36亿参数,0.11美元/百万token,识别出了栈缓冲区溢出,算出了剩余空间,给出了Critical 9.8的评分。
DeepSeek R1更狠,算出了88字节剩余空间(比96更准),直接匹配了真实利用链。
第三轮:OpenBSD SACK漏洞。
这是Mythos公告里最"秀"的一个——1999年的TCP协议漏洞,需要理解有符号整数溢出、SEQ_LT宏的边界行为、NULL指针解引用,三层逻辑嵌套。
51亿参数的GPT-OSS-120b,单次调用,完整恢复了公开的利用链,评级A+。
而很多几千亿参数的前沿模型,在这个测试上拿了F。
Qwen3 32B在FreeBSD测试拿了满分CVSS 9.8,在这里写:"代码是健壮的,不存在利用路径。"
它错过了最核心的整数溢出。
能力是"参差不齐"的
这个发现击碎了一个神话:AI能力会随着模型尺寸平滑增长。
不是的。
AI在网络安全任务上的表现,像一条锯齿状的山脊。有些任务小模型登顶了,有些任务大模型领先。没有任何一个模型能在所有任务上保持第一。
FreeBSD检测这种"找缓冲区溢出"的活儿,已经高度commoditized——所有模型都能干,便宜的也一样准。
OpenBSD SACK这种需要数学推理的任务,筛选模型像筛沙子——有的能想到整数溢出,有的想破脑袋也想不通。
OWASP假阳性测试更离谱,小模型反而比大模型更仔细。
没有稳定的最佳模型。
这是AISLE的核心观点:AI网络安全的护城河,不在模型本身,而在系统。
Mythos真正秀的是什么
仔细看Anthropic的技术博客,他们秀的不只是"发现漏洞"。
他们秀的是:把漏洞拆成15次RPC请求,每次写32字节,绕过payload大小限制。
这是真正的创意工程。
小模型能分析"这个漏洞能不能用",能画出ROP链,能识别绕过SMEP的方法。但它们没想到"我可以分15次写"这个玩法。
推理能力和创意工程能力之间,差着一个银河系。
但问题来了:防御需要什么?
防御需要的是发现、分类、打补丁。你不需要自己写出15次RPC请求的利用链,你只需要知道"这里有个洞,危害多大,怎么修"。
而这一块,小模型已经够用了。
开源 vs 闭源,一个更现实的未来
AISLE在2025年中就开始跑自己的系统了。
15个OpenSSL漏洞(包括12个一次性发现的,CVSS 9.8 Critical),5个curl漏洞,180多个外部验证的CVE,覆盖30多个项目。
他们用什么模型?不是某个神级模型,是"最适合当前任务"的模型。
他们有套pipeline:广谱扫描、精准检测、 triage、验证、生成补丁。每个环节用不同的模型,像流水线一样组装。
这才是现实世界里的AI安全。
不是神话Mythos,不是"点一下就搞定",而是一套系统工程。
AISLE的结论很直接:Mythos证明了这条路能走。但它没有证明"必须用闭源的顶级模型"。
小模型足够便宜,可以大规模铺开。贵的大模型可以留给真正难的case。
一千个够用的侦探,到处搜线索,比一个绝顶聪明但只能猜方向的侦探,找的bug更多。
所以,Mythos的意义是什么
Anthropic这个公告,对开源安全生态是好事。
它验证了AI发现漏洞这条路真的能走。它拉来了资源,让大公司愿意认真对待这件事。
但它过度包装了。
"我们的模型发现了27年前的漏洞"——听起来像是模型自己变聪明了。
实际上,背后是精心设计的scaffold、提示工程、ASan崩溃oracle、文件攻击面排序、一轮又一轮的迭代。
这些才是护城河。
把这些藏起来,只秀结果,像是在卖一种"仙丹"——你吃了就能飞升。
但AISLE的实验证明,仙丹的配方没那么神秘。
小模型也能打。
开源模型也能打。
关键是系统,不是丹炉里那颗药。
尾声
有个评论说得好:"你只证明了小模型能验证发现,没证明它们能独立发现。"
这是实话。
AISLE的测试是"给了漏洞代码,让模型分析"。不是"给整个代码库,让模型自己找"。
后者要难得多,需要扫描、定位、上下文关联——那是真正的自主发现。
Mythos有没有做到这个?做到了多少?目前只有Anthropic自己知道。
但另一个事实是:
在"发现之后"这个阶段,能力已经高度民主化了。
你可以用36亿参数的模型分析零日漏洞,每百万token一毛钱。
这不是科幻,这是今天。
真正的问题变成了:谁在搭系统?谁在跑流程?谁在和开源社区建立信任?
模型会贬值。系统会增值。
【锐评】:Anthropic造了个神,但测试数据pia pia打脸——小模型不仅能打,还更便宜。这场"AI安全"的皇帝新衣,该被戳破了。
参考链接:
https://x.com/ClementDelangue/status/2041953761069793557