每秒 1000 tokens！OpenAI 这波“极速”更新，把 Cerebras 端到了台前

1000 tokens per second。

说实话，看到这个数字的时候，我愣了一下。

这不是什么理论峰值，而是 OpenAI 刚刚发布的 GPT‑5.3‑Codex‑Spark 实际跑出来的数据。这是什么概念？就是你敲下回车，代码像瀑布一样流出来，几乎感觉不到延迟。

以前我们总在比谁的模型更聪明，谁的逻辑更强；现在，风向好像变了。OpenAI 这次联手 Cerebras，把“速度”这件事直接拉到了一个离谱的水平。

这不仅仅是一个小版本的更新，更像是一次对“实时编程”的宣战。

这不是你认识的那个 Codex

AI配图

GPT‑5.3‑Codex‑Spark，名字有点长，咱们就叫它 Spark。

它是 GPT‑5.3‑Codex 的“小弟”，身材更小，但腿脚快得惊人。OpenAI 说，这是他们第一个专门为实时编码设计的模型。

有意思的是，它并不是为了取代那个能干重活、跑长任务的“大哥”，而是为了填补一个空白：即时反馈。

以前你用 AI 写代码，提个需求，等个十几秒，它吐出一大段。现在呢？Spark 优化到了极致，你在 Codex 里改个逻辑、修个界面，它是秒回的。你可以随时打断它，随时改方向，就像身边坐了个反应极快的结对程序员。

这种体验，说实话，用过就回不去了。

Spark 为什么能这么快？

这得提一下 OpenAI 在今年一月宣布的一个合作伙伴：Cerebras。

很多人可能对这家公司不太熟悉，但在硬件圈，他们是个异类。评论里有位网友说得特别到位：“Cerebras 是我们这个时代被最低估的公司之一。”

Spark 就是跑在 Cerebras 的 Wafer Scale Engine 3 上的。

这玩意儿有多大？46,255 平方毫米。

这哪里是芯片，简直就是个晚餐盘子。它塞进了 4 万亿个晶体管，拥有 90 万个 AI 优化核心。比起英伟达的 B200，它的晶体管多了 19 倍，算力更是高出 28 倍。

OpenAI 这次很聪明，没有把宝全押在 GPU 上。GPU 虽然稳，但在这种追求极致低延迟的场景里，Cerebras 这种“特种部队”显然更猛。

大家最关心的问题肯定是：为了速度，牺牲了智商吗？

从数据上看，Spark 在 SWE-Bench Pro 和 Terminal-Bench 2.0 这两个基准测试里，表现相当不错。它完成任务的准确性虽然可能略逊于那个全尺寸的 GPT‑5.3‑Codex，但时间大幅缩短了。

简单说，它用“够用”的智商，换来了“极致”的速度。

不过，我也注意到了一些先行者的反馈。有位网友在试用后直言：“快得飞起，但确实有小模型的感觉。”

这很真实。

Spark 默认的工作风格是“轻量级”的。它倾向于做最小化、针对性的修改，不会自动去跑测试，除非你喊它动。这种策略是为了保证在实时交互中的敏捷性。

我个人觉得，这未必是坏事。对于修修补补、调整逻辑这种活儿，你不需要一个爱自作聪明的大家伙，你需要的是一个手速极快的工具人。

除了靠硬件堆料，OpenAI 在软件上也动了刀子。

他们把整个请求-响应管线捋了一遍，重写了推理堆栈，还改了会话初始化的方式。结果就是，你看到的第一个 Token 出现的时间快了 50%，每个 Token 的开销少了 30%。

AI配图

他们还引入了持久的 WebSocket 连接。这一招很关键，把客户端和服务器来回打乒乓球的开销直接砍掉了 80%。

这些改动虽然听着枯燥，但直接影响手感。这就好比从拨号上网换到了光纤，那种“跟手”的感觉是完全不一样的。

OpenAI 对 Codex 的规划，现在看得很清楚了。

他们想要的是“双模”体验：一边是能跑几天几周、处理复杂任务的“长期代理”；另一边就是 Spark 这种，陪你即时互动、快速迭代的“实时搭档”。

老实讲，这个方向我很看好。

以后写代码可能就是这样：你把一个大任务扔给后台的“大哥”去慢慢跑，自己在前台用“小弟”Spark 快速调试界面、修改逻辑。两者配合，效率直接起飞。

AI配图

目前，Spark 已经作为研究预览版推给了 ChatGPT Pro 用户。如果你有 Codex 应用、CLI 或者 VS Code 插件，现在就能试试。

不过别高兴太早，因为它跑在那种特制的低延迟硬件上，速率限制是独立的。要是人多挤进来，你可能还得排队。

当模型的智力不再是唯一的瓶颈，速度就成了新的护城河。

Spark 的发布，与其说是一个新模型的诞生，不如说是 AI 编程工具开始走向“专业化”和“场景化”的信号。

有了 Cerebras 这种“巨无霸”芯片的加持，以后我们和 AI 交互的延迟，可能真的会逼近人类思考的极限。

那时候，你会更在意它是 GPT-5 还是 GPT-6 吗？还是只关心它能不能跟上你的手速？

参考链接：
https://openai.com/index/introducing-gpt-5-3-codex-spark/