AI Agent 最近火得一塌糊涂,大家都在幻想同一个场景:
把任务扔给 AI,它不仅能自己干,还能在干的过程中“学会”新技能,下次遇到类似的就能直接用。
这种“自我进化”的叙事,听起来性感极了。
但最近一篇挂上 arXiv 的论文《SkillsBench》,要给这盆沸腾的水降降温了。
研究人员搞了个大规模测试,跑了 7308 次实验,结果相当尴尬:让 AI 自己生成“技能”来辅助任务,不仅没用,反而会让表现变差。
相比之下,老老实实由人类编写的“技能包”,能让 AI 的表现暴涨 16.2%。
一边是 -1.3%,一边是 +16.2%。这中间的鸿沟,揭示了 Agent 自动化最残酷的真相。
“自举”是个伪命题
咱们先搞清楚这帮人到底测了什么。
现在的 AI Agent(比如 Claude Code、Gemini CLI)光靠大模型本身是不够的,它们需要“技能”。所谓的技能,其实就是一套结构化的说明书:包含操作步骤、代码模板、验证逻辑等等。
以前大家觉得,既然 AI 这么聪明,能不能让它自己在干活前,先“查查资料”,给自己写一本操作手册,然后再照着手册干?
这就是论文里的 Self-Generated Skills(自生成技能)。
听起来很逻辑闭环对吧?结果数据一出来,全场沉默。
当研究人员让模型在任务开始前先自己生成技能文档时,平均成绩反而比什么都不做下降了 1.3 个百分点。
只有 Opus 4.6 勉强涨了 1.4%,其他的要么原地踏步,要么直接崩盘。OpenAI 的 Codex + GPT-5.2 组合,一旦用了自生成技能,性能暴跌了 5.6%。
为什么会这样?
说白了,这就是在“左口袋倒右口袋”。模型生成的内容,本质上都在它原本的概率分布里。它并没有接触到新的外部信息,只是在重复它“以为”正确的废话。
更有意思的是,这种自生成还会带来两种典型的“幻觉”模式:
- 一本正经地胡说八道:模型知道需要某个领域的知识,但它生成的步骤不精确、不完整。比如它知道处理数据要用 pandas,但生成的 API 调用方式是错的。
- 根本不知道自己不知道:遇到制造、金融这种高门槛领域,模型压根儿就没意识到自己需要专门的技能,拿着一把通用的锤子就想去修精密仪器。
评论区表示:让 AI 用自己的训练数据去教自己,就像让学生自己出题考自己,除了自我感动,没有任何增量。
人类专家的“降维打击”
如果说自生成技能是“负资产”,那人类精心编写的技能就是“神装”。
同样的测试环境,一旦换上了人类策划的技能包,所有模型的平均通过率直接飙升了 16.2 个百分点。
这差距太明显了。
看看上面两张图,这是有技能和没技能的任务通过率对比。有了人类专家的指导,原本那一片红色的“死局”(无法解决的任务),瞬间被撕开了一个大口子。
特别是在那些“隔行如隔山”的领域,人类知识的作用简直是降维打击:
- 医疗领域:技能包让通过率暴涨 51.9%。模型懂概率,但不懂临床数据的具体调和标准,人类给个标准,它就活了。
- 制造业:提升 41.9%。模型不懂工厂的设备维护手册,人类教它,它就会了。
- 金融与办公:SEC 文件分析、Excel 枢纽表制作,这些任务在没技能时全是 0 分,给了技能直接拉到 80% 以上。
反过来看,在数学和软件工程这些领域,技能包的作用就小很多(分别只提升了 6.0% 和 4.5%)。
这说明什么?
说明现在的模型已经被“喂”了太多的代码和数学题,它自己肚子里就有货。但一旦涉及到真实世界那些琐碎、具体、没怎么被互联网收录的“脏活累活”,模型还是个白痴。
这时候,人类的经验,就是它的救命稻草。
并不是“越多越好”
既然人类写的技能这么好用,那是不是把所有相关的文档都塞给 AI,效果最好?
并不是。
研究人员测试了不同数量的技能对结果的影响。结果发现,给 2 到 3 个技能是最佳状态,能给任务带来 18.6% 的巨大提升。
一旦技能超过 4 个,收益断崖式下跌,只剩 5.9%。
这就好比给一个人做手术。递给他一把手术刀,他能救命;给他十把刀子扔在手术台上,他可能光顾着挑刀子就忘了开刀。
论文里还提到了一个细节:文档太长、太全面,反而会坏事。
那种“详尽无遗”的技能包,实际上让性能下降了 2.9%。反而是那种“精简版”或者“适度详细”的文档效果最好。
模型也是有认知负荷的。信息量太大,它就抓不住重点了,甚至会被冗长的文档耗尽上下文窗口。
这点我个人觉得特别有现实意义。很多做企业知识库的人,总想着把公司几十年的文档一股脑丢给 RAG 或者 Agent,结果往往是垃圾进、垃圾出。
有时候,少即是多。
小模型也能翻盘
这次测试里还有一个很有意思的“以小博大”的案例。
大家通常觉得模型越大越聪明,但数据告诉我们:小模型 + 好技能 > 大模型 + 没技能。
拿 Anthropic 的 Claude Haiku 4.5 来说,这是个相对较小的模型。在没有任何技能辅助的情况下,它只能搞定 11% 的任务。
但一旦给它挂载了人类技能包,它的成绩直接冲到了 27.7%。
这个成绩,已经超过了没有任何技能加持的“大聪明” Claude Opus 4.5(22.0%)。
所以,技能是可以弥补智商差距的。
对于预算有限的公司或者个人开发者来说,与其死磕昂贵的大模型,不如花点心思把“技能”打磨好。用“专家经验”去弥补“模型智商”,这条路不仅走得通,而且性价比极高。
别把 Agent 想得太神
看完这篇论文,我对现在的 Agent 赛业多了一层清醒的认识。
我们总在担心 AI 会不会突然觉醒,自我迭代,然后把我们淘汰。
但现实是,AI 的能力导数(Derivative of capabilities)目前还是负的。 让它自己瞎琢磨,它只会越跑越偏。
它更像是一个极其聪明、但没上过班的高材生。它懂原理,懂公式,但不懂“潜规则”,不懂“行业黑话”,不懂怎么填报销单,也不懂怎么修那台老旧的机床。
它需要你,需要那个在这个行业里摸爬滚打多年的你,递给它一张写着“窍门”的小纸条。
所以,别指望它能自己“生成”未来。
未来,还是得靠咱们手把手教出来。
参考链接:
https://arxiv.org/abs/2602.12670