GPT-5.3-Codex 炸场：OpenAI 用 AI 造出了 AI，这回真的不讲武德了

说实话，看到 OpenAI 这次的官方博客，我第一反应不是惊叹，而是有点不寒而栗。

AI配图

他们刚刚发布的 GPT-5.3-Codex，干了一件以前只在科幻小说里才敢写的事：它参与了创造自己。

官方原话写得很直白——Codex 团队用了 GPT-5.3-Codex 的早期版本来调试它自己的训练，管理它自己的部署，甚至诊断测试结果。换句话说，这孩子刚出生，就自己剪断了脐带，还顺便帮医生整理了手术台。这哪是发布新模型，这简直是在展示一个新的物种。

速度与狂暴的数值

先别急着思考哲学，我们来看看硬货。

GPT-5.3-Codex 被定义为“迄今为止能力最强的代理编程模型”。它把 GPT-5.2-Codex 的编程能力，和 GPT-5.2 的推理、专业知识硬生生揉在了一起，还顺手提速了 25%。

这 25% 的提速意味着什么？意味着它能处理更长的任务，做更复杂的研究，用各种工具，还能像个人类同事一样，一边干活一边跟你互动，绝不丢失上下文。更有意思的是它的“战绩”。

OpenAI 搬出了几个权威基准测试。在 SWE-Bench Pro 这个极其严苛的软件工程评估里，它拿下了 56.8% 的分数；在 Terminal-Bench 2.0 上，它的分数高达 77.3%。

AI配图

这个数字一出来，隔壁 Anthropic 怕是有点坐不住了。

就在今天早上，Anthropic 匆忙发布了 Opus 4.6。有眼尖的网友发现，Opus 4.6 在 Terminal-Bench 2.0 上的得分是 65.4%。而 GPT-5.3-Codex 直接干到了 77.3%。有人评论说：“我怀疑 Anthropic 抢在上午 10 点前发布，就是为了避开跟 GPT-5.3-Codex 的正面对比。”

这就很尴尬了。本来以为是神仙打架，结果现在看起来像是单方面碾压。

不止是写代码，它是你的“全栈同事”

以前我们说 AI 写代码，指的是它给你吐出几行 Python 或者 JavaScript。

但 GPT-5.3-Codex 的逻辑完全变了。OpenAI 说，它要从“写代码的代理”进化成“能做开发者能做的任何事的代理”。为了测试这玩意儿到底有多强，OpenAI 让它自己开发两个游戏：一个是新版赛车游戏，一个是潜水游戏。

结果呢？模型用了“开发网页游戏”这个技能，配合着“修复 bug”或者“改进游戏”这种极其通用的指令，自己在几百万个 token 的迭代中把游戏做完了。你没看错，它不是写完代码就跑，它是像个真正的开发者一样，自己修 bug，自己迭代，自己完善。

甚至，当你让它做一个简单的落地页时，它不再是机械地执行指令。OpenAI 做了个对比，让 GPT-5.3-Codex 和它的前辈 GPT-5.2-Codex 做同一个页面。老模型只是简单地把年费乘以 12；而 GPT-5.3-Codex 自动把年费换算成了折扣后的月付价格，还做了一个自动轮播的用户评价。

这已经不是代码能力了，这是产品思维。

我个人觉得，这点比单纯刷高分更可怕。它开始理解“意图”，而不仅仅是“指令”。

双刃剑：网络安全的“高危”时刻能力越强，风险越大。

OpenAI 这次非常坦诚，直接把 GPT-5.3-Codex 划分为网络安全领域的“高能力”模型。这是他们第一个专门训练来识别软件漏洞的模型。

虽然他们还没证据表明这模型能全自动发动网络攻击，但 OpenAI 显然不敢赌。

他们部署了目前为止最全面的安全栈：安全训练、自动监控、受信任访问，还有威胁情报执行管道。甚至，他们还推出了“Trusted Access for Cyber”计划，专门加速网络防御研究。这就像是在造一把能切开一切的刀，然后给它配了一个极其昂贵的刀鞘。

为了防患于未然，OpenAI 还承诺投入 1000 万美元的 API 积分，专门给那些搞开源软件和关键基础设施安全研究的人用。说白了，就是花钱买平安，确保白帽子黑客比黑帽子黑客先用到这把神兵利器。

真正的赢家：不仅是工具，是加速器

讲了这么多性能，其实这篇新闻里最让我触动的一个细节是关于 OpenAI 内部的变化。

素材里提到，因为 Codex 的快速进步，OpenAI 内部很多研究员和工程师说，他们现在的工作跟两个月前相比，已经“完全不同了”。在 Alpha 测试阶段，有个研究员想搞清楚 GPT-5.3-Codex 到底比以前多干了多少活。结果这模型自己写了一堆正则表达式分类器，分析了所有会话日志，最后自己生成了一份报告交了上去。

还有数据科学家，跟 Codex 合作搭建了新的数据管道，把那些反直觉的结果可视化，然后 Codex 在三分钟内总结了数千个数据点里的关键洞察。

这哪里是工具？这简直就是超级实习生。

OpenAI 甚至承认，GPT-5.3-Codex 在他们自己发布的过程中，动态调整 GPU 集群来应对流量洪峰，保持延迟稳定。这让我想起那句老话：最好的产品，往往是那些连制造者自己都离不开的产品。OpenAI 这波“Dogfooding”（吃自己的狗粮），吃得是真香。

未来的路：交互还是自主？

有意思的是，在热门评论里，有人指出了 GPT-5.3-Codex 和 Anthropic Opus 4.6 在哲学上的分歧。

GPT-5.3-Codex 强调的是“交互式协作”：你可以在它工作的时候打断它，纠正它，引导它。而 Opus 4.6 强调的是“自主”：它想得更深，跑得更久，尽量少问人类。

这其实反映了两种不同的未来图景。一种是人类紧握方向盘，AI 是超级副驾；另一种是人类设定终点，AI 自己开车。

GPT-5.3-Codex 显然选择了前者。它想让你在每一个关键决策点都在场，让你时刻知道它在干什么。

随着 GPT-5.3-Codex 的发布，编程代理的边界再次被推远。它不再仅仅是写代码，而是在操作电脑，完成端到端的工作。

当 AI 开始用 AI 来制造 AI，当它不仅能写代码还能帮你做产品决策、搞安全防御，我们是不是该问问自己：

下一个被它“优化”掉的，会是谁？

参考链接：
https://openai.com/index/introducing-gpt-5-3-codex/