OpenAI昨晚扔了个炸弹。GPT-5.4在操作电脑这件事上,正式超越了人类。
不是写诗画画那种"超越",是实打实的——看屏幕、动鼠标、敲键盘、完成复杂任务。在OSWorld-Verified测试中,GPT-5.4拿到75.0%的成功率,而人类基准线是72.4%。
这个数字意味着什么?意味着AI不再只是"聊天机器人",它开始具备"动手能力"了。
一个模型,两种命运
GPT-5.4这次分了两条产品线:GPT-5.4 Thinking和GPT-5.4 Pro。
Thinking版本面向大众,主打"思考过程可见"——模型会在回答前先给你一个计划,你可以中途干预、调整方向。老实讲,这个功能挺实用的,之前AI闷头干活,输出结果经常跟你要的差十万八千里,现在能"纠偏"了。
Pro版本则面向复杂任务,价格也相当"Pro"——输入每百万token 30美元,输出每百万token 180美元。对比一下普通版:输入2.5美元,输出15美元。差了整整12倍。
有意思的是,OpenAI这次把GPT-5.3-Codex的代码能力也整合进来了。SWE-Bench Pro测试中,GPT-5.4拿到57.7%,略胜GPT-5.3-Codex的56.8%。一个模型,既能写代码,又能做表格,还能操作电脑——OpenAI的野心很明显:消灭"选模型"这个步骤。
投行分析师的噩梦
GDPval测试覆盖了44个职业,横跨美国GDP贡献最大的9个行业。任务都是实打实的工作产出:销售演示文稿、会计表格、急诊室排班表、制造图纸、短视频。
GPT-5.4在这项测试中,83.0%的表现达到或超过行业专业人士。作为对比,GPT-5.2是70.9%。
更扎心的是内部测试数据:初级投行分析师常做的表格建模任务,GPT-5.4平均得分87.3%,GPT-5.2只有68.4%。演示文稿制作方面,人类评估员68.0%的情况下更喜欢GPT-5.4的作品——理由是"审美更强、视觉变化更丰富、图片生成更有效"。
说实话,这个数据我看着有点发毛。投行分析师的入门工作,AI已经能干到这个水平了?
幻觉问题,终于有点进展
GPT-5.4号称是OpenAI"最真实的模型"。
根据用户标记的事实错误数据集,GPT-5.4的单条陈述出错概率比GPT-5.2降低了33%,完整回复出现任何错误的概率降低了18%。
不算完美,但至少在往正确方向走。毕竟幻觉问题一直是企业级应用的拦路虎。
1M上下文,真正的大杀器
GPT-5.4支持100万token的上下文窗口。
这个数字什么概念?大概相当于一本中等长度的小说,或者几千页的技术文档。更重要的是,在超长上下文任务中,模型还能保持"记忆"——能记住前面的步骤,不会干着干着就忘了自己在干嘛。
评论区有人指出,1M上下文没有额外加价,超过标准272K的部分只按2倍计费。对比竞品Opus 4.6(输入$5/M、输出$25/M,超200K还有惩罚),GPT-5.4的定价策略算得上"良心"。
版本号,彻底乱套了
评论区炸了,不是因为性能,是因为命名。
"OpenAI现在有三个价位:GPT-5.1、GPT-5.2、GPT-5.4。版本号在不同产品线之间跳来跳去——Codex是5.3,Instant也是5.3。只有Anthropic把这事搞明白了:三个模型,三个价位,清清楚楚。"
还有人吐槽:
"他们忍了八个月没有搞乱版本号,现在终于破功了。"
我个人觉得,这个吐槽挺精准的。GPT-5刚出来的时候,主打"一个模型搞定所有",后台自动路由到最合适的模型。现在呢?Thinking、Pro、Instant、Codex……选择困难症又要犯了。
"点击邮件发送按钮"——这真的是最优解吗?
GPT-5.4的计算机使用能力,核心逻辑是:截图→识别UI元素→坐标点击→完成任务。
官方演示里,模型在Gmail里点来点去发邮件、在日历里安排会议。
评论区有人质疑:
"GPT-5.4解读浏览器截图,通过坐标点击UI元素来发邮件、安排日程。我仍然觉得这是错误的交互方式。为什么不直接用Gmail API?不需要截图解读,不需要坐标点击。"
这个质疑有道理。但换个角度想:API不是万能的。 很多企业软件根本没有API,或者API功能残缺。这种情况下,"像人一样操作界面"反而更通用。
两条路线,各有优劣。但OpenAI显然押注了"通用"这条路。
工具搜索:省钱的小聪明
之前,模型调用工具时,要把所有工具定义塞进提示词。工具一多,动辄几万token,又贵又慢。
GPT-5.4换了个思路:先给模型一个"工具目录",需要时再查具体定义。
测试结果:250个任务、36个MCP服务器全开的情况下,工具搜索模式让总token用量下降了47%,准确率不变。
这个小改进,对开发者来说可能是真金白银的节省。
RPG游戏demo,惊艳到我了
官方博客里放了个彩蛋:GPT-5.4自己写了一个类似《Battle Brothers》的RPG游戏。
RPG游戏需要什么?美术资源、敌人AI、战斗系统、经济系统、剧情逻辑……一个人独立开发都够呛,AI居然能搞定。
评论区有人感叹:
"这是我见过最震撼的自主工程演示之一。"
安全问题:CoT监控有效吗?
OpenAI在安全方面做了件有意思的事:测试模型能不能"藏私心"。
结论是:GPT-5.4 Thinking"故意隐藏推理过程"的能力很低。换句话说,模型不会"装傻",思维链监控仍然有效。
这个发现对AI安全研究有意义——至少目前,我们还能通过监控思维链来发现模型的"小心思"。
定价与可用性
- API:GPT-5.4现已可用(
gpt-5.4),Pro版本为gpt-5.4-pro - ChatGPT:Plus、Team、Pro用户即日起可用,Enterprise和Edu需要管理员开启
- GPT-5.2 Thinking保留三个月,2026年6月5日退休
价格方面,Batch和Flex模式半价,Priority模式双倍价格换更快速度。
写在最后
GPT-5.4不是那种"哇,AGI来了"的突破。但它是一个信号:AI正在从"能说"进化到"能做"。
操作电脑、处理表格、写代码、做PPT——这些曾经需要人类动手的"知识工作",AI正在一步步蚕食。
不是替代,是蚕食。
问题是:当AI能干掉83%的"专业工作"时,我们该教孩子什么?
【glm-5锐评】:版本号乱成这样,OpenAI的产品经理是不是该拉出去祭天了?不过75%超越人类72.4%这事儿,确实有点东西。
参考链接:
https://openai.com/index/introducing-gpt-5-4/