说实话,看到 OpenAI 这次的官方博客,我第一反应不是惊叹,而是有点不寒而栗。

AI配图

他们刚刚发布的 GPT-5.3-Codex,干了一件以前只在科幻小说里才敢写的事:它参与了创造自己。

官方原话写得很直白——Codex 团队用了 GPT-5.3-Codex 的早期版本来调试它自己的训练,管理它自己的部署,甚至诊断测试结果。换句话说,这孩子刚出生,就自己剪断了脐带,还顺便帮医生整理了手术台。这哪是发布新模型,这简直是在展示一个新的物种。

速度与狂暴的数值

先别急着思考哲学,我们来看看硬货。

GPT-5.3-Codex 被定义为“迄今为止能力最强的代理编程模型”。它把 GPT-5.2-Codex 的编程能力,和 GPT-5.2 的推理、专业知识硬生生揉在了一起,还顺手提速了 25%。

这 25% 的提速意味着什么?意味着它能处理更长的任务,做更复杂的研究,用各种工具,还能像个人类同事一样,一边干活一边跟你互动,绝不丢失上下文。更有意思的是它的“战绩”。

OpenAI 搬出了几个权威基准测试。在 SWE-Bench Pro 这个极其严苛的软件工程评估里,它拿下了 56.8% 的分数;在 Terminal-Bench 2.0 上,它的分数高达 77.3%

AI配图

这个数字一出来,隔壁 Anthropic 怕是有点坐不住了。

就在今天早上,Anthropic 匆忙发布了 Opus 4.6。有眼尖的网友发现,Opus 4.6 在 Terminal-Bench 2.0 上的得分是 65.4%。而 GPT-5.3-Codex 直接干到了 77.3%。有人评论说:“我怀疑 Anthropic 抢在上午 10 点前发布,就是为了避开跟 GPT-5.3-Codex 的正面对比。”

这就很尴尬了。本来以为是神仙打架,结果现在看起来像是单方面碾压。

不止是写代码,它是你的“全栈同事”

以前我们说 AI 写代码,指的是它给你吐出几行 Python 或者 JavaScript。

但 GPT-5.3-Codex 的逻辑完全变了。OpenAI 说,它要从“写代码的代理”进化成“能做开发者能做的任何事的代理”。为了测试这玩意儿到底有多强,OpenAI 让它自己开发两个游戏:一个是新版赛车游戏,一个是潜水游戏。

结果呢?模型用了“开发网页游戏”这个技能,配合着“修复 bug”或者“改进游戏”这种极其通用的指令,自己在几百万个 token 的迭代中把游戏做完了。你没看错,它不是写完代码就跑,它是像个真正的开发者一样,自己修 bug,自己迭代,自己完善。

甚至,当你让它做一个简单的落地页时,它不再是机械地执行指令。OpenAI 做了个对比,让 GPT-5.3-Codex 和它的前辈 GPT-5.2-Codex 做同一个页面。老模型只是简单地把年费乘以 12;而 GPT-5.3-Codex 自动把年费换算成了折扣后的月付价格,还做了一个自动轮播的用户评价。

这已经不是代码能力了,这是产品思维。

我个人觉得,这点比单纯刷高分更可怕。它开始理解“意图”,而不仅仅是“指令”。

双刃剑:网络安全的“高危”时刻能力越强,风险越大。

OpenAI 这次非常坦诚,直接把 GPT-5.3-Codex 划分为网络安全领域的“高能力”模型。这是他们第一个专门训练来识别软件漏洞的模型。

虽然他们还没证据表明这模型能全自动发动网络攻击,但 OpenAI 显然不敢赌。

他们部署了目前为止最全面的安全栈:安全训练、自动监控、受信任访问,还有威胁情报执行管道。甚至,他们还推出了“Trusted Access for Cyber”计划,专门加速网络防御研究。这就像是在造一把能切开一切的刀,然后给它配了一个极其昂贵的刀鞘。

为了防患于未然,OpenAI 还承诺投入 1000 万美元的 API 积分,专门给那些搞开源软件和关键基础设施安全研究的人用。说白了,就是花钱买平安,确保白帽子黑客比黑帽子黑客先用到这把神兵利器。

真正的赢家:不仅是工具,是加速器

讲了这么多性能,其实这篇新闻里最让我触动的一个细节是关于 OpenAI 内部的变化。

素材里提到,因为 Codex 的快速进步,OpenAI 内部很多研究员和工程师说,他们现在的工作跟两个月前相比,已经“完全不同了”。在 Alpha 测试阶段,有个研究员想搞清楚 GPT-5.3-Codex 到底比以前多干了多少活。结果这模型自己写了一堆正则表达式分类器,分析了所有会话日志,最后自己生成了一份报告交了上去。

还有数据科学家,跟 Codex 合作搭建了新的数据管道,把那些反直觉的结果可视化,然后 Codex 在三分钟内总结了数千个数据点里的关键洞察。

这哪里是工具?这简直就是超级实习生。

OpenAI 甚至承认,GPT-5.3-Codex 在他们自己发布的过程中,动态调整 GPU 集群来应对流量洪峰,保持延迟稳定。这让我想起那句老话:最好的产品,往往是那些连制造者自己都离不开的产品。OpenAI 这波“Dogfooding”(吃自己的狗粮),吃得是真香。

未来的路:交互还是自主?

有意思的是,在热门评论里,有人指出了 GPT-5.3-Codex 和 Anthropic Opus 4.6 在哲学上的分歧。

GPT-5.3-Codex 强调的是“交互式协作”:你可以在它工作的时候打断它,纠正它,引导它。而 Opus 4.6 强调的是“自主”:它想得更深,跑得更久,尽量少问人类。

这其实反映了两种不同的未来图景。一种是人类紧握方向盘,AI 是超级副驾;另一种是人类设定终点,AI 自己开车。

GPT-5.3-Codex 显然选择了前者。它想让你在每一个关键决策点都在场,让你时刻知道它在干什么。

随着 GPT-5.3-Codex 的发布,编程代理的边界再次被推远。它不再仅仅是写代码,而是在操作电脑,完成端到端的工作。

当 AI 开始用 AI 来制造 AI,当它不仅能写代码还能帮你做产品决策、搞安全防御,我们是不是该问问自己:

下一个被它“优化”掉的,会是谁?

参考链接:
https://openai.com/index/introducing-gpt-5-3-codex/