封面图

你上一次顺利用Google找到东西,是什么时候?

不是被AI Overview塞了一堆废话,不是被“相关问题”引导到另一个迷宫,就是眼睁睁看着搜索结果被塞进一个聊天框——然后Google开始表现得像ChatGPT。

本周Google I/O,官方终于把话挑明了:“这是25年来搜索框最大的一次升级。” 负责人Elizabeth Reid称之为“彻底AI化的搜索”。

用户的反应很诚实:一条热门评论直接写道——“这是迄今最好的广告,告诉我们是时候换一个搜索引擎了。”

但Google的傲慢只是这场大戏的表层。真正有意思的,是一个叫geohot的黑客最近写了篇博客,标题就叫《永恒的Sloptember》。这位MIT入学前就能破解iPhone的天才程序员,用一句话给整个行业泼了一盆冰水:

“把AI Agent引入软件开发,将成为这个领域历史上最昂贵的错误。”

这话说得够狠。但更狠的是,他还真金白银试了6个月——tinygrad用Agent写代码,逆向USB转PCIe芯片——然后得出结论:Agent无法编程,它们只是极度精密的统计学模型,模仿编程的分布。输出是坏的,只是坏得越来越难察觉。

这不是一个失败者的酸葡萄。这是圈内人的亲测报告。


当我们在讨论AI编程时,我们在讨论什么

有意思的是,学术界的实证研究几乎在同一时间给geohot的直觉提供了数据支撑。

arXiv最新论文《Constraint Decay》做了件很笨但很重要的事:找来80个全新的生成任务和20个功能实现任务,跨越8种Web框架,系统测试LLM Agent在面临严格架构约束时的表现。

结果很残酷——

当结构性要求逐步叠加,Agent性能出现断崖式下跌。 原本还能用的配置,断言通过率平均下降30个百分点;部分弱配置直接归零。

更扎心的是框架敏感度分析:Agent能在Flask这种简洁框架里蒙混过关,但一碰到FastAPI、Django这种“惯例繁多”的环境,直接原形毕露。论文把根因锁定在数据层缺陷——ORM运行时违规、查询组合错误,这些“简单但致命”的bug。

这解释了什么?

为什么每个开发者都有类似的经历:让AI写个脚本行云流水,让它参与正经工程就处处暴雷。 不是你prompt写得不对,是架构复杂度每上一个台阶,Agent的概率游戏就少一分胜算。

所以当你看到那些“AI编程革命”的叙事时,心里要有个数:那些演示视频大概率是在Flask上跑的。


一个更隐秘的问题:连随机数都不是真的

有个团队最近做了件好玩的事:他们对GPT-4.1进行了10000次独立调用,每次让模型“从1到100之间选一个随机数”。

结果呢?模型明显偏好37和73,偏好多“乱”的数字,还会上 memes——42、69这种。它在刻意回避整数。

这说明什么?

LLM根本没有“随机”这个概念,它只是在模仿人类。 包括人类那种“我觉得这样更随机”的认知偏差。

这听起来像个有趣的心理学实验,但它指向一个严肃的问题:当模型输出“不均匀”时,我们到底在得到什么?

是智能,还是高仿真的模仿?


企业正在为AI Agent付出代价,只是还没人算过账

消费级的困惑可以调侃,但工业级的风险就没那么好笑了。

一位在Cisco和Splunk干了六年的基础设施工程师最近写了篇文章,标题有点长——《AI Agent正在悄然引发企业尚未追踪的混沌工程故障》。

翻译一下:你们的AI Agent正在制造生产事故,只是没人知道该怎么分类。

文章里有个细节让人后背发凉:

Agent发起了某个动作。动作在Agent的上下文里是对的。但上下文本身是不完整的。于是基础设施层开始级联崩溃。等复盘的时候,三个团队吵成一团——这到底是Agent的锅,还是基础设施的锅?因为从来没人想过要把这两个框架打通。

这背后的数字更触目惊心:

79%的组织已经有某种形式的AI Agent在生产环境跑着,96%计划扩大部署。 Gartner预测到2028年,33%的企业软件会包含Agentic AI——但同时也警告,40%的这类项目会因为风控不力被砍掉。

问题在于,这两个数字之间的灰色地带:那些正在跑着的、没被取消的、正在安静制造基础设施事件的Agent,没有人把它们定义为风险。

而更可怕的是,现有的可观测性工具和复盘模板,根本没有为“AI Agent触发的不完整上下文级联故障”准备好字段。


所以,我们到底在干什么?

说几个事实:

Google强推AI搜索,用户用脚投票开始迁移。geohot亲测6个月后宣布“AI Agent不能编程”。学术研究证实“约束衰减”是结构性瓶颈。一万次调用证明LLM连随机数都在模仿人类偏差。企业级AI Agent正在制造没人追踪的生产故障。

把这些拼在一起,轮廓出来了:

AI Agent正在被过度炒作和过早部署。 消费级场景里,它在稀释用户体验;企业级场景里,它在积累未被识别的风险;软件开发领域,它的真实能力边界被严重高估,而那30%的性能衰减,被精心剪辑在每一个演示视频的剪辑线之外。

这不是说AI没用。geohot自己都承认,AI是“更好的Google”,原型速写的时候挺好使。但一旦进入需要结构正确性的领域——生产级代码、企业基础设施、任何“差一个字符就完蛋”的场景——Agent的概率游戏就开始坑人。

问题是,整个行业正在把“原型速写”当成“大规模部署”来卖。

Google I/O的发布会上没人会说“我们的AI Search可能让你的搜索结果变得更难用”。Gartner的预测报告里,40%被取消的项目不会出现在任何公司的技术债务报表上。

但那些跑着的Agent,正在安静地制造下一波事故。

算账的时刻迟早会来。

可能就在下一个季度。


【锐评】:一个行业集体装睡的剧本:所有人都在吹AI Agent的星辰大海,没人在算它烧掉了多少生产环境的容错率。


参考来源: