安全圈最近有个很有意思的现象:厂商们都在说自己在做“安全Agent”,但大部分本质上就是个扫描器——哐哐给你吐500个漏洞,然后丢一句“good luck”。
说实话,这种东西用久了,安全感没涨,血压倒是涨了不少。
但今天,OpenAI扔出来的这个东西,可能不太一样。
它不只会找漏洞,还会动手修
先看硬数据。
过去30天,Codex Security扫描了120万次提交——这是外部测试仓库的量。扫出来了什么?
- 792个严重漏洞
- 10561个高危漏洞
0.1%。注意这个数字。
这意味着它不是那种“宁可错杀一千”的扫货工具,而是在确保低噪音的前提下,还能从海量代码里拽出真正的雷。
更关键的是后面这组:噪音减少了84%,误报率下降50%+。
安全团队最怕的不是没漏洞,是漏洞太多——500个warning里可能只有3个真的需要修,你得一个个点开看,逐个判断,严重程度还经常标错。这也就是为什么很多公司做安全扫描,扫完就扔角落里吃灰。
Codex Security的逻辑是:我帮你筛一遍,只给你看值得看的。
那个被内部先发现的SSRF
内部测试阶段,OpenAI安全团队用自己开刀。
然后发现了一个真实的SSRF漏洞,还有一个跨租户认证漏洞——听起来就很刺激的那种。
几个小时之内,漏洞被修了。
这个细节我特别喜欢。OpenAI没有拿外部客户当小白鼠,而是先拿自己的代码库开练。这算是某种诚意吧——毕竟如果自己都不敢用,凭什么让别人用?
开源社区终于有救了?
有意思的是,文章里提了一个开源社区的痛点:
“挑战不是缺乏漏洞报告,而是低质量的报告太多了。”
维护者们天天被一堆误报淹没,真正的问题反而被淹没了。
Codex Security现在已经开始帮一些开源项目找漏洞、修漏洞。比如vLLM已经用上了。
还列出了十几个已经发现的CVE,包括GnuTLS的堆缓冲区溢出、GOGS的2FA绕过、LDAP注入等等。
这些都是真实的安全雷区。
开发者买不买账?
热评里有个观点特别到位:
“Most security tools just dump a list of 500 findings and say 'good luck.' The real bottleneck was never detection. It was triage + remediation speed. This changes the developer security workflow.”
说白了,检测只是第一步。验证它是不是真的能利用、然后快速修好,这才是卡住所有人的地方。
Codex Security的“三步走”策略——建威胁模型、验证漏洞、修代码——基本上就是在回应这个问题。
当然,也有人酸:
“if you had the choice between Claude security and now Codex security. Which one you picking.”
还有:
“It’s a shame nobody is using codex isn’t it?”
确实,Codex(代码编辑)之前的存在感不强。这次安全Agent能不能打一场翻身仗,还得看实际效果。
写在最后
AI安全工具这波浪潮,其实才刚刚开始。
以前是“发现漏洞”,后来是“验证漏洞”,现在到了“自动修复”——这个演进路径很清晰。
Codex Security能不能真的让安全团队从“救火”变成“防火”,我不知道。但至少从纸面参数来看,它踩中了最痛的点:不是没工具,是工具太吵。
一个月免费,ChatGPT Pro/Enterprise/Edu都能用。
要不要亲自试试?
【MiniMax-M2.5锐评】:这波啊这波是“安全AI从石器时代进入铁器时代”——能不能打不知道,但至少方向对了。
参考链接:
https://x.com/OpenAIDevs/status/2029983809652035758