GPT-5.5深夜发布：NVIDIA工程师说“失去它像截肢”，程序员真的要慌了？

OpenAI昨晚发布了GPT-5.5。

没什么铺垫，也没什么惊天动地的营销词，除了官网那行字：“我们迄今最智能、最直观的模型。”

但真正让人心里一紧的，不是跑分，也不是多模态，而是一句来自内测用户的评价。

“失去访问GPT-5.5的权限，感觉就像被截肢了一样。”

说这话的不是普通用户，是一位NVIDIA的资深工程师。这就有点意思了——让英伟达的人觉得AI成了身体的一部分，这到底是赞美，还是一种细思极恐的依赖？

这不仅仅是一次版本迭代，更像是一场关于“谁才是操作系统”的宣战。

不再是“人工智障”，它开始有“脑子”了

老实讲，过去一年大家用大模型写代码，体验其实挺割裂的。

你得把需求拆得稀碎，一步一步喂给它，还得时刻盯着它别写出一堆Bug。与其说是它在帮你干活，不如说是你在当它的保姆。

GPT-5.5想终结这种局面。

AI配图

官方说法是，它更擅长处理“混乱、多部分”的任务。什么意思？就是你不用管过程，直接扔给它一个烂摊子，它自己会规划、会调用工具、会检查错误，甚至会在遇到歧义时自己想办法绕过去。

这就是所谓的Agentic（代理）能力。

数据很能说明问题。

在Terminal-Bench 2.0（一个测试复杂命令行工作流的基准）上，GPT-5.5跑到了**82.7%**的准确率。作为对比，GPT-5.4是75.1%，而Claude Opus 4.7只有69.4%。

更狠的是SWE-Bench Pro。这玩意儿测试的是真实世界的GitHub问题解决能力。GPT-5.5拿到了58.6%。这意味着，一大半的真实代码难题，它能自己搞定。

而且，它变“省”了。

虽然参数更大、脑子更快，但GPT-5.5在完成同样的代码任务时，消耗的token反而更少。OpenAI宣称，在Artificial Analysis的编码指数上，它的成本只有同类前沿模型的一半。

又快又省，这谁顶得住？

以前是写代码，现在是“做工程”

如果说以前的模型是“写代码”，GPT-5.5更像是在“做工程”。

AI配图

Every公司的创始人Dan Shipper讲了一个很有意思的故事。

他在App上线后遇到了一个棘手的Bug，折腾了好几天没搞定，最后不得不找来公司最牛的工程师重写了部分系统。

后来他拿GPT-5.5做测试，把时间倒回去——让模型看着那个破碎的状态，看它能不能像那位顶级工程师一样解决问题。

GPT-5.4直接傻眼，做不到。

GPT-5.5做到了。

它不仅能修Bug，还能理解系统的“形状”。就像一位资深架构师，知道改了这里会影响哪里，知道为什么要这么改。

还有一位叫Pietro Schirano的CEO，让GPT-5.5合并一个包含数百个前端改动的分支，而主分支同时也发生了巨大变化。这通常是程序员的噩梦。

结果呢？GPT-5.5在20分钟内，一次性搞定。

Cursor的CEO Michael Truell评价得很到位：“它在任务上停留的时间明显更长，不会半途而废。”

以前的模型，写着写着就“累”了，开始胡言乱语；GPT-5.5学会了死磕。

科学家的新玩具，数学家的外挂

这种“死磕”的能力，在科研领域更显得可怕。

OpenAI这次展示了一个案例：GPT-5.5辅助发现了一个关于**拉姆齐数（Ramsey numbers）**的新证明。

拉姆齐数是组合数学里的硬骨头，研究的是“多大的网络必然会出现某种秩序”。这玩意儿很难证。

GPT-5.5不仅给出了代码和解释，还给出了一个令人惊讶的数学论证。这已经不是在写代码了，这是在搞科研。

在生物学领域，杰克逊实验室的教授Derya Unutmaz扔给它一个包含62个样本、近28000个基因的数据集。

GPT-5.5吐出了一份详细的研究报告，不仅总结了发现，还提出了关键问题。

教授说，这活儿要是让人干，得干好几个月。

Image 1: 代数几何可视化

甚至有数学教授用它11分钟写出了一个代数几何可视化App。

说实话，这种效率的提升，已经不是“生产力工具”能概括的了，它正在改变“专家”的定义。

最疯狂的一集：AI自己优化自己

这一段可能是整篇发布稿里最让人后背发凉的。

GPT-5.5是跑在英伟达GB200系统上的。为了让推理速度更快，OpenAI团队让Codex（也就是GPT-5.5的载体）去分析了几周的生产流量数据。

然后，模型自己写了一套启发式算法，优化了负载均衡。

结果，Token生成速度提升了20%。

你没看错。AI不仅在工作，它还在优化那个运行它的基础设施。

这有点像“左脚踩右脚上天”。模型自己把自己变快了。

而在OpenAI内部，这种“自我吞噬”已经常态化。财务团队用它审了24771份K-1税表，省了两周时间；通讯团队用它建了一套自动筛选请求的Slack机器人；甚至有员工用它自动化生成周报，一周省下10小时。

全公司85%的人每周都在用Codex。

这哪里是工具，这简直是公司的新员工。

价格涨了，但OpenAI说“更便宜”

当然，天下没有免费的午餐。

GPT-5.5的API价格来了个大跳涨：输入每百万Token 5美元，输出30美元。Pro版本更是高达30美元和180美元。

这比GPT-5.4贵了不少。

但OpenAI的理由很硬：因为它更聪明，所以它用的Token更少；因为它更少犯错，所以你需要重试的次数更少。

这笔账怎么算，取决于你的工作流。

AI配图

如果你只是聊聊天，写写诗，那确实贵了。但如果你是拿它当工程师、分析师、研究员用，那这点钱，比起雇个人，简直是白菜价。

不过，评论区也有人泼冷水。

有人指出，在Artificial Analysis的测试中，GPT-5.5的幻觉率依然高达86%。相比之下，Claude Opus是36%。

这数据虽然有点狠，但也提醒我们：再聪明的模型，也有一本正经胡说八道的时候。

安全与风险：当黑客拥有了神兵利器

能力越强，责任越大，风险也越大。

OpenAI这次把GPT-5.5的生物和网络安全能力评级定为了“高（High）”。虽然还没到“严重”级别，但相比GPT-5.4已经有了质的飞跃。

它在CyberGym（网络安全测试）上的得分是81.8%。这意味着它找漏洞、写攻击代码的能力极强。

OpenAI也很纠结。如果完全封禁，白帽子黑客就没法用它防御；如果放开，坏人就有了利器。

他们的折中方案是推出了**“Trusted Access for Cyber”**计划。只有经过验证的、可信的防御者，才能解锁这些高危能力。

这就像是在核电站门口装了个安检门，虽然不能杜绝核泄漏，但至少能防住大多数小偷小摸。

但老实说，在这个模型能力指数级爆炸的年代，所谓的“安全护栏”，到底能拦多久，谁心里也没底。

总结

GPT-5.5发布后，有人欢呼，有人焦虑。

欢呼的是那些终于能从枯燥代码中解脱出来的工程师，焦虑的是那些担心被“截肢”的人。

OpenAI正在试图证明一件事：AI不再是那个需要你手把手教的实习生，它正在变成那个能独立交付结果的合伙人。

至于这个合伙人会不会有一天把你的活儿全干了，甚至把你开了？

这就不是GPT-5.5能回答的问题了。

【锐评】：
GPT-5.5最可怕的不是跑分，而是它开始具备了“把事办成”的执行力，当AI学会了自我优化，人类的护城河可能只剩下“承担责任”了。

参考链接：
https://openai.com/index/introducing-gpt-5-5/