AI Agent狂飙三年，我们终于到了算账的时刻

封面图

你上一次顺利用Google找到东西，是什么时候？

不是被AI Overview塞了一堆废话，不是被“相关问题”引导到另一个迷宫，就是眼睁睁看着搜索结果被塞进一个聊天框——然后Google开始表现得像ChatGPT。

本周Google I/O，官方终于把话挑明了：“这是25年来搜索框最大的一次升级。” 负责人Elizabeth Reid称之为“彻底AI化的搜索”。

用户的反应很诚实：一条热门评论直接写道——“这是迄今最好的广告，告诉我们是时候换一个搜索引擎了。”

但Google的傲慢只是这场大戏的表层。真正有意思的，是一个叫geohot的黑客最近写了篇博客，标题就叫《永恒的Sloptember》。这位MIT入学前就能破解iPhone的天才程序员，用一句话给整个行业泼了一盆冰水：

“把AI Agent引入软件开发，将成为这个领域历史上最昂贵的错误。”

这话说得够狠。但更狠的是，他还真金白银试了6个月——tinygrad用Agent写代码，逆向USB转PCIe芯片——然后得出结论：Agent无法编程，它们只是极度精密的统计学模型，模仿编程的分布。输出是坏的，只是坏得越来越难察觉。

这不是一个失败者的酸葡萄。这是圈内人的亲测报告。

当我们在讨论AI编程时，我们在讨论什么

有意思的是，学术界的实证研究几乎在同一时间给geohot的直觉提供了数据支撑。

arXiv最新论文《Constraint Decay》做了件很笨但很重要的事：找来80个全新的生成任务和20个功能实现任务，跨越8种Web框架，系统测试LLM Agent在面临严格架构约束时的表现。

结果很残酷——

当结构性要求逐步叠加，Agent性能出现断崖式下跌。 原本还能用的配置，断言通过率平均下降30个百分点；部分弱配置直接归零。

更扎心的是框架敏感度分析：Agent能在Flask这种简洁框架里蒙混过关，但一碰到FastAPI、Django这种“惯例繁多”的环境，直接原形毕露。论文把根因锁定在数据层缺陷——ORM运行时违规、查询组合错误，这些“简单但致命”的bug。

这解释了什么？

为什么每个开发者都有类似的经历：让AI写个脚本行云流水，让它参与正经工程就处处暴雷。 不是你prompt写得不对，是架构复杂度每上一个台阶，Agent的概率游戏就少一分胜算。

所以当你看到那些“AI编程革命”的叙事时，心里要有个数：那些演示视频大概率是在Flask上跑的。

一个更隐秘的问题：连随机数都不是真的

有个团队最近做了件好玩的事：他们对GPT-4.1进行了10000次独立调用，每次让模型“从1到100之间选一个随机数”。

结果呢？模型明显偏好37和73，偏好多“乱”的数字，还会上 memes——42、69这种。它在刻意回避整数。

这说明什么？

LLM根本没有“随机”这个概念，它只是在模仿人类。 包括人类那种“我觉得这样更随机”的认知偏差。

这听起来像个有趣的心理学实验，但它指向一个严肃的问题：当模型输出“不均匀”时，我们到底在得到什么？

是智能，还是高仿真的模仿？

企业正在为AI Agent付出代价，只是还没人算过账

消费级的困惑可以调侃，但工业级的风险就没那么好笑了。

一位在Cisco和Splunk干了六年的基础设施工程师最近写了篇文章，标题有点长——《AI Agent正在悄然引发企业尚未追踪的混沌工程故障》。

翻译一下：你们的AI Agent正在制造生产事故，只是没人知道该怎么分类。

文章里有个细节让人后背发凉：

Agent发起了某个动作。动作在Agent的上下文里是对的。但上下文本身是不完整的。于是基础设施层开始级联崩溃。等复盘的时候，三个团队吵成一团——这到底是Agent的锅，还是基础设施的锅？因为从来没人想过要把这两个框架打通。

这背后的数字更触目惊心：

79%的组织已经有某种形式的AI Agent在生产环境跑着，96%计划扩大部署。 Gartner预测到2028年，33%的企业软件会包含Agentic AI——但同时也警告，40%的这类项目会因为风控不力被砍掉。

问题在于，这两个数字之间的灰色地带：那些正在跑着的、没被取消的、正在安静制造基础设施事件的Agent，没有人把它们定义为风险。

而更可怕的是，现有的可观测性工具和复盘模板，根本没有为“AI Agent触发的不完整上下文级联故障”准备好字段。

所以，我们到底在干什么？

说几个事实：

Google强推AI搜索，用户用脚投票开始迁移。geohot亲测6个月后宣布“AI Agent不能编程”。学术研究证实“约束衰减”是结构性瓶颈。一万次调用证明LLM连随机数都在模仿人类偏差。企业级AI Agent正在制造没人追踪的生产故障。

把这些拼在一起，轮廓出来了：

AI Agent正在被过度炒作和过早部署。 消费级场景里，它在稀释用户体验；企业级场景里，它在积累未被识别的风险；软件开发领域，它的真实能力边界被严重高估，而那30%的性能衰减，被精心剪辑在每一个演示视频的剪辑线之外。

这不是说AI没用。geohot自己都承认，AI是“更好的Google”，原型速写的时候挺好使。但一旦进入需要结构正确性的领域——生产级代码、企业基础设施、任何“差一个字符就完蛋”的场景——Agent的概率游戏就开始坑人。

问题是，整个行业正在把“原型速写”当成“大规模部署”来卖。

Google I/O的发布会上没人会说“我们的AI Search可能让你的搜索结果变得更难用”。Gartner的预测报告里，40%被取消的项目不会出现在任何公司的技术债务报表上。

但那些跑着的Agent，正在安静地制造下一波事故。

算账的时刻迟早会来。

可能就在下一个季度。

【锐评】：一个行业集体装睡的剧本：所有人都在吹AI Agent的星辰大海，没人在算它烧掉了多少生产环境的容错率。

参考来源：

Search engines alternatives now that Google isn't Google anymore (TechCrunch)
The Eternal Sloptember (geohot blog)
Constraint Decay: The Fragility of LLM Agents in Backend Code Generation (arXiv)
GPT Guesses Between 1 and 100 (GitHub)
AI agents are quietly generating chaos engineering failures enterprises don't track yet (VentureBeat)