1000 tokens per second。

说实话,看到这个数字的时候,我愣了一下。

这不是什么理论峰值,而是 OpenAI 刚刚发布的 GPT‑5.3‑Codex‑Spark 实际跑出来的数据。这是什么概念?就是你敲下回车,代码像瀑布一样流出来,几乎感觉不到延迟。

以前我们总在比谁的模型更聪明,谁的逻辑更强;现在,风向好像变了。OpenAI 这次联手 Cerebras,把“速度”这件事直接拉到了一个离谱的水平。

这不仅仅是一个小版本的更新,更像是一次对“实时编程”的宣战。

这不是你认识的那个 Codex

AI配图

GPT‑5.3‑Codex‑Spark,名字有点长,咱们就叫它 Spark。

它是 GPT‑5.3‑Codex 的“小弟”,身材更小,但腿脚快得惊人。OpenAI 说,这是他们第一个专门为实时编码设计的模型。

有意思的是,它并不是为了取代那个能干重活、跑长任务的“大哥”,而是为了填补一个空白:即时反馈。

以前你用 AI 写代码,提个需求,等个十几秒,它吐出一大段。现在呢?Spark 优化到了极致,你在 Codex 里改个逻辑、修个界面,它是秒回的。你可以随时打断它,随时改方向,就像身边坐了个反应极快的结对程序员。

这种体验,说实话,用过就回不去了。

幕后那个“巨无霸”

Spark 为什么能这么快?

这得提一下 OpenAI 在今年一月宣布的一个合作伙伴:Cerebras。

很多人可能对这家公司不太熟悉,但在硬件圈,他们是个异类。评论里有位网友说得特别到位:“Cerebras 是我们这个时代被最低估的公司之一。”

Spark 就是跑在 Cerebras 的 Wafer Scale Engine 3 上的。

这玩意儿有多大?46,255 平方毫米。

这哪里是芯片,简直就是个晚餐盘子。它塞进了 4 万亿个晶体管,拥有 90 万个 AI 优化核心。比起英伟达的 B200,它的晶体管多了 19 倍,算力更是高出 28 倍。

OpenAI 这次很聪明,没有把宝全押在 GPU 上。GPU 虽然稳,但在这种追求极致低延迟的场景里,Cerebras 这种“特种部队”显然更猛。

快是快了,但聪明吗?

大家最关心的问题肯定是:为了速度,牺牲了智商吗?

从数据上看,Spark 在 SWE-Bench Pro 和 Terminal-Bench 2.0 这两个基准测试里,表现相当不错。它完成任务的准确性虽然可能略逊于那个全尺寸的 GPT‑5.3‑Codex,但时间大幅缩短了。

简单说,它用“够用”的智商,换来了“极致”的速度。

不过,我也注意到了一些先行者的反馈。有位网友在试用后直言:“快得飞起,但确实有小模型的感觉。”

这很真实。

Spark 默认的工作风格是“轻量级”的。它倾向于做最小化、针对性的修改,不会自动去跑测试,除非你喊它动。这种策略是为了保证在实时交互中的敏捷性。

我个人觉得,这未必是坏事。对于修修补补、调整逻辑这种活儿,你不需要一个爱自作聪明的大家伙,你需要的是一个手速极快的工具人。

技术细节里的“小心机”

除了靠硬件堆料,OpenAI 在软件上也动了刀子。

他们把整个请求-响应管线捋了一遍,重写了推理堆栈,还改了会话初始化的方式。结果就是,你看到的第一个 Token 出现的时间快了 50%,每个 Token 的开销少了 30%。

AI配图

他们还引入了持久的 WebSocket 连接。这一招很关键,把客户端和服务器来回打乒乓球的开销直接砍掉了 80%。

这些改动虽然听着枯燥,但直接影响手感。这就好比从拨号上网换到了光纤,那种“跟手”的感觉是完全不一样的。

双模式:未来的样子

OpenAI 对 Codex 的规划,现在看得很清楚了。

他们想要的是“双模”体验:一边是能跑几天几周、处理复杂任务的“长期代理”;另一边就是 Spark 这种,陪你即时互动、快速迭代的“实时搭档”。

老实讲,这个方向我很看好。

以后写代码可能就是这样:你把一个大任务扔给后台的“大哥”去慢慢跑,自己在前台用“小弟”Spark 快速调试界面、修改逻辑。两者配合,效率直接起飞。

AI配图

目前,Spark 已经作为研究预览版推给了 ChatGPT Pro 用户。如果你有 Codex 应用、CLI 或者 VS Code 插件,现在就能试试。

不过别高兴太早,因为它跑在那种特制的低延迟硬件上,速率限制是独立的。要是人多挤进来,你可能还得排队。

写在最后

当模型的智力不再是唯一的瓶颈,速度就成了新的护城河。

Spark 的发布,与其说是一个新模型的诞生,不如说是 AI 编程工具开始走向“专业化”和“场景化”的信号。

有了 Cerebras 这种“巨无霸”芯片的加持,以后我们和 AI 交互的延迟,可能真的会逼近人类思考的极限。

那时候,你会更在意它是 GPT-5 还是 GPT-6 吗?还是只关心它能不能跟上你的手速?

参考链接:
https://openai.com/index/introducing-gpt-5-3-codex-spark/