GPT-5.4发布：AI操作电脑首次超越人类，投行分析师要慌了？

OpenAI昨晚扔了个炸弹。GPT-5.4在操作电脑这件事上，正式超越了人类。

不是写诗画画那种"超越"，是实打实的——看屏幕、动鼠标、敲键盘、完成复杂任务。在OSWorld-Verified测试中，GPT-5.4拿到75.0%的成功率，而人类基准线是72.4%。

这个数字意味着什么？意味着AI不再只是"聊天机器人"，它开始具备"动手能力"了。

一个模型，两种命运

GPT-5.4这次分了两条产品线：GPT-5.4 Thinking和GPT-5.4 Pro。

Thinking版本面向大众，主打"思考过程可见"——模型会在回答前先给你一个计划，你可以中途干预、调整方向。老实讲，这个功能挺实用的，之前AI闷头干活，输出结果经常跟你要的差十万八千里，现在能"纠偏"了。

AI配图

Pro版本则面向复杂任务，价格也相当"Pro"——输入每百万token 30美元，输出每百万token 180美元。对比一下普通版：输入2.5美元，输出15美元。差了整整12倍。

有意思的是，OpenAI这次把GPT-5.3-Codex的代码能力也整合进来了。SWE-Bench Pro测试中，GPT-5.4拿到57.7%，略胜GPT-5.3-Codex的56.8%。一个模型，既能写代码，又能做表格，还能操作电脑——OpenAI的野心很明显：消灭"选模型"这个步骤。

投行分析师的噩梦

GDPval测试覆盖了44个职业，横跨美国GDP贡献最大的9个行业。任务都是实打实的工作产出：销售演示文稿、会计表格、急诊室排班表、制造图纸、短视频。

GPT-5.4在这项测试中，83.0%的表现达到或超过行业专业人士。作为对比，GPT-5.2是70.9%。

更扎心的是内部测试数据：初级投行分析师常做的表格建模任务，GPT-5.4平均得分87.3%，GPT-5.2只有68.4%。演示文稿制作方面，人类评估员68.0%的情况下更喜欢GPT-5.4的作品——理由是"审美更强、视觉变化更丰富、图片生成更有效"。

说实话，这个数据我看着有点发毛。投行分析师的入门工作，AI已经能干到这个水平了？

幻觉问题，终于有点进展

GPT-5.4号称是OpenAI"最真实的模型"。

根据用户标记的事实错误数据集，GPT-5.4的单条陈述出错概率比GPT-5.2降低了33%，完整回复出现任何错误的概率降低了18%。

不算完美，但至少在往正确方向走。毕竟幻觉问题一直是企业级应用的拦路虎。

1M上下文，真正的大杀器

AI配图

GPT-5.4支持100万token的上下文窗口。

这个数字什么概念？大概相当于一本中等长度的小说，或者几千页的技术文档。更重要的是，在超长上下文任务中，模型还能保持"记忆"——能记住前面的步骤，不会干着干着就忘了自己在干嘛。

评论区有人指出，1M上下文没有额外加价，超过标准272K的部分只按2倍计费。对比竞品Opus 4.6（输入$5/M、输出$25/M，超200K还有惩罚），GPT-5.4的定价策略算得上"良心"。

版本号，彻底乱套了

评论区炸了，不是因为性能，是因为命名。

"OpenAI现在有三个价位：GPT-5.1、GPT-5.2、GPT-5.4。版本号在不同产品线之间跳来跳去——Codex是5.3，Instant也是5.3。只有Anthropic把这事搞明白了：三个模型，三个价位，清清楚楚。"

还有人吐槽：

"他们忍了八个月没有搞乱版本号，现在终于破功了。"

我个人觉得，这个吐槽挺精准的。GPT-5刚出来的时候，主打"一个模型搞定所有"，后台自动路由到最合适的模型。现在呢？Thinking、Pro、Instant、Codex……选择困难症又要犯了。

"点击邮件发送按钮"——这真的是最优解吗？

GPT-5.4的计算机使用能力，核心逻辑是：截图→识别UI元素→坐标点击→完成任务。

官方演示里，模型在Gmail里点来点去发邮件、在日历里安排会议。

评论区有人质疑：

"GPT-5.4解读浏览器截图，通过坐标点击UI元素来发邮件、安排日程。我仍然觉得这是错误的交互方式。为什么不直接用Gmail API？不需要截图解读，不需要坐标点击。"

这个质疑有道理。但换个角度想：API不是万能的。 很多企业软件根本没有API，或者API功能残缺。这种情况下，"像人一样操作界面"反而更通用。

两条路线，各有优劣。但OpenAI显然押注了"通用"这条路。

工具搜索：省钱的小聪明

之前，模型调用工具时，要把所有工具定义塞进提示词。工具一多，动辄几万token，又贵又慢。

GPT-5.4换了个思路：先给模型一个"工具目录"，需要时再查具体定义。

测试结果：250个任务、36个MCP服务器全开的情况下，工具搜索模式让总token用量下降了47%，准确率不变。

这个小改进，对开发者来说可能是真金白银的节省。

RPG游戏demo，惊艳到我了

官方博客里放了个彩蛋：GPT-5.4自己写了一个类似《Battle Brothers》的RPG游戏。

RPG游戏需要什么？美术资源、敌人AI、战斗系统、经济系统、剧情逻辑……一个人独立开发都够呛，AI居然能搞定。

评论区有人感叹：

"这是我见过最震撼的自主工程演示之一。"

安全问题：CoT监控有效吗？

OpenAI在安全方面做了件有意思的事：测试模型能不能"藏私心"。

结论是：GPT-5.4 Thinking"故意隐藏推理过程"的能力很低。换句话说，模型不会"装傻"，思维链监控仍然有效。

这个发现对AI安全研究有意义——至少目前，我们还能通过监控思维链来发现模型的"小心思"。

定价与可用性

API：GPT-5.4现已可用（gpt-5.4），Pro版本为gpt-5.4-pro
ChatGPT：Plus、Team、Pro用户即日起可用，Enterprise和Edu需要管理员开启
GPT-5.2 Thinking保留三个月，2026年6月5日退休

价格方面，Batch和Flex模式半价，Priority模式双倍价格换更快速度。

写在最后

GPT-5.4不是那种"哇，AGI来了"的突破。但它是一个信号：AI正在从"能说"进化到"能做"。

操作电脑、处理表格、写代码、做PPT——这些曾经需要人类动手的"知识工作"，AI正在一步步蚕食。

AI配图

不是替代，是蚕食。

问题是：当AI能干掉83%的"专业工作"时，我们该教孩子什么？

【glm-5锐评】：版本号乱成这样，OpenAI的产品经理是不是该拉出去祭天了？不过75%超越人类72.4%这事儿，确实有点东西。

参考链接：
https://openai.com/index/introducing-gpt-5-4/