疯狂的两天:OpenAI按下了加速键

OpenAI现在的发布节奏,简直让人喘不过气。

AI配图

literally 两天前,他们才刚推出了GPT-5.3 Instant,还没等开发者把文档看完,更重磅的GPT-5.4就来了。这次不是小修小补,而是两个大家伙:GPT-5.4 ThinkingGPT-5.4 Pro

说实话,这种更新频率,与其说是迭代,不如说是对竞争对手的"降维打击"。

简单划个重点:Plus用户(每月20刀)能用Thinking版,Pro用户(每月200刀)才能解锁Pro版。至于免费用户?只能等系统自动把你的问题路由给新模型,能不能蹭上全看运气。

但这都不是重点,重点是OpenAI这次给AI装上了"手"。

AI长了手:它开始像人一样操控电脑

这可能是GPT-5.4最让人细思极恐的功能——原生计算机使用

以前的AI也就是陪你聊聊天、写写代码,但GPT-5.4不一样。它能通过API和Codex,像人类一样操作你的电脑。怎么操作?看截图、动鼠标、敲键盘。

OpenAI给出的数据很硬核:在OSWorld-Verified测试中,GPT-5.4的任务成功率达到了75.0%

这个数字意味着什么?意味着它已经超过了测试中的人类基准线(72.4%)。

AI配图

老实讲,让AI在某个特定领域赢过人类我们见多了,但在"操作电脑"这种通用技能上反超,这还是头一遭。OpenAI声称这不仅仅是套了个UI壳子,模型能直接写代码调用Playwright库,也能直接发号施令控制键鼠。

这就很有意思了。以前我们说"AI取代人类"还是个比喻,现在它真的可以坐在电脑前,替你完成跨应用的多步骤工作流了。

白领危机:Excel成了AI的新战场

如果你觉得操作电脑离自己还有点远,那看看Excel。

OpenAI这次直接把GPT-5.4塞进了Microsoft Excel和Google Sheets。这可不是简单的插件,而是让AI直接嵌入表格单元格,构建、分析、更新复杂的金融模型。

来看看这个数据:在OpenAI内部的投行基准测试中,GPT-5.4 Thinking的得分从上一代的43.7%直接飙到了88.0%

这是个什么概念?在GDPval(覆盖44个职业的知识工作评估)中,GPT-5.4在83%的比较中匹配或超过了行业专业人士。特别是在那些初级投行分析师常做的表格建模任务里,GPT-5.4平均得分87.5%,而上一代只有68.4%。

我个人觉得,这对初级白领的冲击是巨大的。以前实习生还要花时间做DCF分析、写投资备忘录,现在AI不仅能做,还能保证比新人更少的错误率。

OpenAI甚至拉来了Walleye Capital的Daniel Swiecki背书,说在内部金融评估中,GPT-5.4把准确率提高了30个百分点。看来,以后金融民工的饭碗,真的要看AI脸色了。

昂贵的进化:能力越强,账单越长

当然,这么强的能力,肯定不便宜。

AI配图

GPT-5.4的价格一公布,估计不少开发者的心都凉了半截。

  • GPT-5.4输入$2.50/百万Token,输出$15.00/百万Token。
  • GPT-5.4 Pro输入$30.00/百万Token,输出$180.00/百万Token。

这个价格是什么水平?对比一下国产大模型DeepSeek,输入才$0.28,输出$0.42。GPT-5.4 Pro的输入价格是DeepSeek的100多倍!

更有意思的是OpenAI的"分段计费"策略。虽然API支持高达100万Token的上下文,但一旦你的输入超过27.2万Token,价格直接翻倍

OpenAI对此的解释是:能力更强了,推理效率更高了,所以贵点也合理。他们还特意强调了一个效率提升的点:引入了"工具搜索"(Tool Search)。

以前把所有工具定义塞进Prompt里不仅贵,还污染上下文。现在GPT-5.4能像搜索一样按需调用工具,在特定测试中,Token使用量减少了47%

这就像是你去餐厅吃饭,以前是自助餐随便吃但入场费贵,现在是点一道菜收一道菜的钱,虽然单道菜贵得离谱,但如果你吃得精细,或许能省点钱。

不止是聊天,是"代理人"的觉醒

不管是让AI操作电脑,还是嵌入Excel,OpenAI的意图非常明显:它不想只做一个聊天机器人,它要做代理人。

这次更新,OpenAI把重点放在了长周期的多步骤工作流上。幻觉率降低了(用户标记的错误减少了33%),文档处理能力增强了(支持高达1024万像素的图片输入),都是为了支持这种"代理人"模式。

Mercor的CEO Brendan Foody评价说,GPT-5.4是他们测试过的最好的模型,特别是在制作PPT、金融模型和法律分析这种长周期产出物上。

这说明AI的竞争赛道已经变了。以前大家比谁回答问题准,现在比的是谁能像员工一样,独立把一件复杂的事从头做到尾。

只不过,这个"数字员工"的工资,确实有点高。

【glm-4.7锐评】:
技术狂飙突进,钱包瑟瑟发抖,OpenAI正在定义AI时代的"奢侈品"逻辑——想体验未来?先付得起门票钱。

参考链接:
https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for