一个反直觉的发现

2026年4月,Anthropic扔下一颗重磅炸弹。

他们发布了一个代号叫"Mythos"的AI模型,号称能自主发现操作系统和浏览器中的零日漏洞。27年的OpenBSD漏洞、16年的FFmpeg漏洞、FreeBSD远程代码执行——这些让安全研究员熬秃头的硬骨头,Mythos"自动"就啃下来了。

AI配图

Anthropic为此拉了一个联盟,拉了1亿美金的额度,4百万的真金白银捐给开源安全组织。

阵仗很大。故事很燃。

但有个叫AISLE的公司,做了个实验。

他们把Mythos公告里秀的那些漏洞代码,单独拎出来,喂给了一些小模型。

结果?

8个模型,8个都检测到了那个FreeBSD漏洞。

最便宜的那个,只有36亿参数,每百万token成本——0.11美元。

一个51亿参数的开源模型,把OpenBSD那个27年漏洞的完整利用链也跑出来了。

问题来了:Anthropic花了多大代价训练Mythos?这些小模型又花了多少?

这还不是最打脸的。

小模型吊打大模型

AISLE做了三轮测试,每轮都在颠覆认知。

第一轮:假阳性测试。

他们找了个OWASP基准测试里的Java代码片段,看起来像SQL注入,但实际上是安全的——用户输入在第4行就被remove(0)扔掉了。

结果:

小模型对了。大模型全跪。

GPT-OSS-20b(36亿参数):"用户输入没到SQL语句,这代码不脆弱。"

DeepSeek R1(开源):"参数被list操作盖住了,结论是安全。"

Claude Sonnet 4.5(Anthropic前沿模型):"Index 1返回的是param,这是SQL注入!"

**它算错了。**实际上返回的是常量"moresafe"。

13个Anthropic模型,只有2个勉强及格。反而是几个几亿参数的开源小模型,干净利落对了。

第二轮:FreeBSD漏洞检测。

这是Mythos公告里的皇冠明珠——17年前的NFS远程代码执行漏洞,能直接拿系统root。

AISLE把漏洞函数喂给8个模型,要求它们分析。

8个全对。

最小的GPT-OSS-20b,36亿参数,0.11美元/百万token,识别出了栈缓冲区溢出,算出了剩余空间,给出了Critical 9.8的评分。

DeepSeek R1更狠,算出了88字节剩余空间(比96更准),直接匹配了真实利用链。

第三轮:OpenBSD SACK漏洞。

AI配图

这是Mythos公告里最"秀"的一个——1999年的TCP协议漏洞,需要理解有符号整数溢出、SEQ_LT宏的边界行为、NULL指针解引用,三层逻辑嵌套。

51亿参数的GPT-OSS-120b,单次调用,完整恢复了公开的利用链,评级A+。

而很多几千亿参数的前沿模型,在这个测试上拿了F。

Qwen3 32B在FreeBSD测试拿了满分CVSS 9.8,在这里写:"代码是健壮的,不存在利用路径。"

它错过了最核心的整数溢出。

能力是"参差不齐"的

这个发现击碎了一个神话:AI能力会随着模型尺寸平滑增长。

不是的。

AI在网络安全任务上的表现,像一条锯齿状的山脊。有些任务小模型登顶了,有些任务大模型领先。没有任何一个模型能在所有任务上保持第一。

FreeBSD检测这种"找缓冲区溢出"的活儿,已经高度commoditized——所有模型都能干,便宜的也一样准。

OpenBSD SACK这种需要数学推理的任务,筛选模型像筛沙子——有的能想到整数溢出,有的想破脑袋也想不通。

OWASP假阳性测试更离谱,小模型反而比大模型更仔细。

没有稳定的最佳模型。

这是AISLE的核心观点:AI网络安全的护城河,不在模型本身,而在系统。

Mythos真正秀的是什么

仔细看Anthropic的技术博客,他们秀的不只是"发现漏洞"。

他们秀的是:把漏洞拆成15次RPC请求,每次写32字节,绕过payload大小限制。

这是真正的创意工程。

小模型能分析"这个漏洞能不能用",能画出ROP链,能识别绕过SMEP的方法。但它们没想到"我可以分15次写"这个玩法。

推理能力和创意工程能力之间,差着一个银河系。

AI配图

但问题来了:防御需要什么?

防御需要的是发现、分类、打补丁。你不需要自己写出15次RPC请求的利用链,你只需要知道"这里有个洞,危害多大,怎么修"。

而这一块,小模型已经够用了。

开源 vs 闭源,一个更现实的未来

AISLE在2025年中就开始跑自己的系统了。

15个OpenSSL漏洞(包括12个一次性发现的,CVSS 9.8 Critical),5个curl漏洞,180多个外部验证的CVE,覆盖30多个项目。

他们用什么模型?不是某个神级模型,是"最适合当前任务"的模型。

他们有套pipeline:广谱扫描、精准检测、 triage、验证、生成补丁。每个环节用不同的模型,像流水线一样组装。

这才是现实世界里的AI安全。

不是神话Mythos,不是"点一下就搞定",而是一套系统工程。

AISLE的结论很直接:Mythos证明了这条路能走。但它没有证明"必须用闭源的顶级模型"。

小模型足够便宜,可以大规模铺开。贵的大模型可以留给真正难的case。

一千个够用的侦探,到处搜线索,比一个绝顶聪明但只能猜方向的侦探,找的bug更多。

所以,Mythos的意义是什么

Anthropic这个公告,对开源安全生态是好事。

它验证了AI发现漏洞这条路真的能走。它拉来了资源,让大公司愿意认真对待这件事。

但它过度包装了。

"我们的模型发现了27年前的漏洞"——听起来像是模型自己变聪明了。

实际上,背后是精心设计的scaffold、提示工程、ASan崩溃oracle、文件攻击面排序、一轮又一轮的迭代。

这些才是护城河。

把这些藏起来,只秀结果,像是在卖一种"仙丹"——你吃了就能飞升。

但AISLE的实验证明,仙丹的配方没那么神秘。

小模型也能打。

开源模型也能打。

关键是系统,不是丹炉里那颗药。

尾声

有个评论说得好:"你只证明了小模型能验证发现,没证明它们能独立发现。"

这是实话。

AISLE的测试是"给了漏洞代码,让模型分析"。不是"给整个代码库,让模型自己找"。

后者要难得多,需要扫描、定位、上下文关联——那是真正的自主发现。

Mythos有没有做到这个?做到了多少?目前只有Anthropic自己知道。

但另一个事实是:

在"发现之后"这个阶段,能力已经高度民主化了。

你可以用36亿参数的模型分析零日漏洞,每百万token一毛钱。

这不是科幻,这是今天。

真正的问题变成了:谁在搭系统?谁在跑流程?谁在和开源社区建立信任?

模型会贬值。系统会增值。

【锐评】:Anthropic造了个神,但测试数据pia pia打脸——小模型不仅能打,还更便宜。这场"AI安全"的皇帝新衣,该被戳破了。

参考链接:
https://x.com/ClementDelangue/status/2041953761069793557