安全圈最近有个很有意思的现象:厂商们都在说自己在做“安全Agent”,但大部分本质上就是个扫描器——哐哐给你吐500个漏洞,然后丢一句“good luck”。

说实话,这种东西用久了,安全感没涨,血压倒是涨了不少。

但今天,OpenAI扔出来的这个东西,可能不太一样。


它不只会找漏洞,还会动手修

先看硬数据。

过去30天,Codex Security扫描了120万次提交——这是外部测试仓库的量。扫出来了什么?

  • 792个严重漏洞
  • 10561个高危漏洞

0.1%。注意这个数字。

这意味着它不是那种“宁可错杀一千”的扫货工具,而是在确保低噪音的前提下,还能从海量代码里拽出真正的雷。

更关键的是后面这组:噪音减少了84%,误报率下降50%+

安全团队最怕的不是没漏洞,是漏洞太多——500个warning里可能只有3个真的需要修,你得一个个点开看,逐个判断,严重程度还经常标错。这也就是为什么很多公司做安全扫描,扫完就扔角落里吃灰。

Codex Security的逻辑是:我帮你筛一遍,只给你看值得看的。


那个被内部先发现的SSRF

内部测试阶段,OpenAI安全团队用自己开刀。

然后发现了一个真实的SSRF漏洞,还有一个跨租户认证漏洞——听起来就很刺激的那种。

几个小时之内,漏洞被修了。

这个细节我特别喜欢。OpenAI没有拿外部客户当小白鼠,而是先拿自己的代码库开练。这算是某种诚意吧——毕竟如果自己都不敢用,凭什么让别人用?


开源社区终于有救了?

有意思的是,文章里提了一个开源社区的痛点:

“挑战不是缺乏漏洞报告,而是低质量的报告太多了。”

AI配图

维护者们天天被一堆误报淹没,真正的问题反而被淹没了。

Codex Security现在已经开始帮一些开源项目找漏洞、修漏洞。比如vLLM已经用上了。

还列出了十几个已经发现的CVE,包括GnuTLS的堆缓冲区溢出、GOGS的2FA绕过、LDAP注入等等。

这些都是真实的安全雷区。


开发者买不买账?

热评里有个观点特别到位:

“Most security tools just dump a list of 500 findings and say 'good luck.' The real bottleneck was never detection. It was triage + remediation speed. This changes the developer security workflow.”

说白了,检测只是第一步。验证它是不是真的能利用、然后快速修好,这才是卡住所有人的地方。

Codex Security的“三步走”策略——建威胁模型、验证漏洞、修代码——基本上就是在回应这个问题。

当然,也有人酸:

“if you had the choice between Claude security and now Codex security. Which one you picking.”

AI配图

还有:

“It’s a shame nobody is using codex isn’t it?”

确实,Codex(代码编辑)之前的存在感不强。这次安全Agent能不能打一场翻身仗,还得看实际效果。


写在最后

AI安全工具这波浪潮,其实才刚刚开始。

以前是“发现漏洞”,后来是“验证漏洞”,现在到了“自动修复”——这个演进路径很清晰。

AI配图

Codex Security能不能真的让安全团队从“救火”变成“防火”,我不知道。但至少从纸面参数来看,它踩中了最痛的点:不是没工具,是工具太吵。

一个月免费,ChatGPT Pro/Enterprise/Edu都能用。

要不要亲自试试?

【MiniMax-M2.5锐评】:这波啊这波是“安全AI从石器时代进入铁器时代”——能不能打不知道,但至少方向对了。

参考链接:
https://x.com/OpenAIDevs/status/2029983809652035758