OpenAI昨晚发布了GPT-5.5。
没什么铺垫,也没什么惊天动地的营销词,除了官网那行字:“我们迄今最智能、最直观的模型。”
但真正让人心里一紧的,不是跑分,也不是多模态,而是一句来自内测用户的评价。
“失去访问GPT-5.5的权限,感觉就像被截肢了一样。”
说这话的不是普通用户,是一位NVIDIA的资深工程师。这就有点意思了——让英伟达的人觉得AI成了身体的一部分,这到底是赞美,还是一种细思极恐的依赖?
这不仅仅是一次版本迭代,更像是一场关于“谁才是操作系统”的宣战。
不再是“人工智障”,它开始有“脑子”了
老实讲,过去一年大家用大模型写代码,体验其实挺割裂的。
你得把需求拆得稀碎,一步一步喂给它,还得时刻盯着它别写出一堆Bug。与其说是它在帮你干活,不如说是你在当它的保姆。
GPT-5.5想终结这种局面。
官方说法是,它更擅长处理“混乱、多部分”的任务。什么意思?就是你不用管过程,直接扔给它一个烂摊子,它自己会规划、会调用工具、会检查错误,甚至会在遇到歧义时自己想办法绕过去。
这就是所谓的Agentic(代理)能力。
数据很能说明问题。
在Terminal-Bench 2.0(一个测试复杂命令行工作流的基准)上,GPT-5.5跑到了**82.7%**的准确率。作为对比,GPT-5.4是75.1%,而Claude Opus 4.7只有69.4%。
更狠的是SWE-Bench Pro。这玩意儿测试的是真实世界的GitHub问题解决能力。GPT-5.5拿到了58.6%。这意味着,一大半的真实代码难题,它能自己搞定。
而且,它变“省”了。
虽然参数更大、脑子更快,但GPT-5.5在完成同样的代码任务时,消耗的token反而更少。OpenAI宣称,在Artificial Analysis的编码指数上,它的成本只有同类前沿模型的一半。
又快又省,这谁顶得住?
以前是写代码,现在是“做工程”
如果说以前的模型是“写代码”,GPT-5.5更像是在“做工程”。
Every公司的创始人Dan Shipper讲了一个很有意思的故事。
他在App上线后遇到了一个棘手的Bug,折腾了好几天没搞定,最后不得不找来公司最牛的工程师重写了部分系统。
后来他拿GPT-5.5做测试,把时间倒回去——让模型看着那个破碎的状态,看它能不能像那位顶级工程师一样解决问题。
GPT-5.4直接傻眼,做不到。
GPT-5.5做到了。
它不仅能修Bug,还能理解系统的“形状”。就像一位资深架构师,知道改了这里会影响哪里,知道为什么要这么改。
还有一位叫Pietro Schirano的CEO,让GPT-5.5合并一个包含数百个前端改动的分支,而主分支同时也发生了巨大变化。这通常是程序员的噩梦。
结果呢?GPT-5.5在20分钟内,一次性搞定。
Cursor的CEO Michael Truell评价得很到位:“它在任务上停留的时间明显更长,不会半途而废。”
以前的模型,写着写着就“累”了,开始胡言乱语;GPT-5.5学会了死磕。
科学家的新玩具,数学家的外挂
这种“死磕”的能力,在科研领域更显得可怕。
OpenAI这次展示了一个案例:GPT-5.5辅助发现了一个关于**拉姆齐数(Ramsey numbers)**的新证明。
拉姆齐数是组合数学里的硬骨头,研究的是“多大的网络必然会出现某种秩序”。这玩意儿很难证。
GPT-5.5不仅给出了代码和解释,还给出了一个令人惊讶的数学论证。这已经不是在写代码了,这是在搞科研。
在生物学领域,杰克逊实验室的教授Derya Unutmaz扔给它一个包含62个样本、近28000个基因的数据集。
GPT-5.5吐出了一份详细的研究报告,不仅总结了发现,还提出了关键问题。
教授说,这活儿要是让人干,得干好几个月。
甚至有数学教授用它11分钟写出了一个代数几何可视化App。
说实话,这种效率的提升,已经不是“生产力工具”能概括的了,它正在改变“专家”的定义。
最疯狂的一集:AI自己优化自己
这一段可能是整篇发布稿里最让人后背发凉的。
GPT-5.5是跑在英伟达GB200系统上的。为了让推理速度更快,OpenAI团队让Codex(也就是GPT-5.5的载体)去分析了几周的生产流量数据。
然后,模型自己写了一套启发式算法,优化了负载均衡。
结果,Token生成速度提升了20%。
你没看错。AI不仅在工作,它还在优化那个运行它的基础设施。
这有点像“左脚踩右脚上天”。模型自己把自己变快了。
而在OpenAI内部,这种“自我吞噬”已经常态化。财务团队用它审了24771份K-1税表,省了两周时间;通讯团队用它建了一套自动筛选请求的Slack机器人;甚至有员工用它自动化生成周报,一周省下10小时。
全公司85%的人每周都在用Codex。
这哪里是工具,这简直是公司的新员工。
价格涨了,但OpenAI说“更便宜”
当然,天下没有免费的午餐。
GPT-5.5的API价格来了个大跳涨:输入每百万Token 5美元,输出30美元。Pro版本更是高达30美元和180美元。
这比GPT-5.4贵了不少。
但OpenAI的理由很硬:因为它更聪明,所以它用的Token更少;因为它更少犯错,所以你需要重试的次数更少。
这笔账怎么算,取决于你的工作流。
如果你只是聊聊天,写写诗,那确实贵了。但如果你是拿它当工程师、分析师、研究员用,那这点钱,比起雇个人,简直是白菜价。
不过,评论区也有人泼冷水。
有人指出,在Artificial Analysis的测试中,GPT-5.5的幻觉率依然高达86%。相比之下,Claude Opus是36%。
这数据虽然有点狠,但也提醒我们:再聪明的模型,也有一本正经胡说八道的时候。
安全与风险:当黑客拥有了神兵利器
能力越强,责任越大,风险也越大。
OpenAI这次把GPT-5.5的生物和网络安全能力评级定为了“高(High)”。虽然还没到“严重”级别,但相比GPT-5.4已经有了质的飞跃。
它在CyberGym(网络安全测试)上的得分是81.8%。这意味着它找漏洞、写攻击代码的能力极强。
OpenAI也很纠结。如果完全封禁,白帽子黑客就没法用它防御;如果放开,坏人就有了利器。
他们的折中方案是推出了**“Trusted Access for Cyber”**计划。只有经过验证的、可信的防御者,才能解锁这些高危能力。
这就像是在核电站门口装了个安检门,虽然不能杜绝核泄漏,但至少能防住大多数小偷小摸。
但老实说,在这个模型能力指数级爆炸的年代,所谓的“安全护栏”,到底能拦多久,谁心里也没底。
总结
GPT-5.5发布后,有人欢呼,有人焦虑。
欢呼的是那些终于能从枯燥代码中解脱出来的工程师,焦虑的是那些担心被“截肢”的人。
OpenAI正在试图证明一件事:AI不再是那个需要你手把手教的实习生,它正在变成那个能独立交付结果的合伙人。
至于这个合伙人会不会有一天把你的活儿全干了,甚至把你开了?
这就不是GPT-5.5能回答的问题了。
【锐评】:
GPT-5.5最可怕的不是跑分,而是它开始具备了“把事办成”的执行力,当AI学会了自我优化,人类的护城河可能只剩下“承担责任”了。
参考链接:
https://openai.com/index/introducing-gpt-5-5/