Agent 自我进化出的 Skills 就是个笑话！不仅没用，还是负资产

AI Agent 最近火得一塌糊涂，大家都在幻想同一个场景：

把任务扔给 AI，它不仅能自己干，还能在干的过程中“学会”新技能，下次遇到类似的就能直接用。

这种“自我进化”的叙事，听起来性感极了。

但最近一篇挂上 arXiv 的论文《SkillsBench》，要给这盆沸腾的水降降温了。

研究人员搞了个大规模测试，跑了 7308 次实验，结果相当尴尬：让 AI 自己生成“技能”来辅助任务，不仅没用，反而会让表现变差。

相比之下，老老实实由人类编写的“技能包”，能让 AI 的表现暴涨 16.2%。

一边是 -1.3%，一边是 +16.2%。这中间的鸿沟，揭示了 Agent 自动化最残酷的真相。

“自举”是个伪命题

咱们先搞清楚这帮人到底测了什么。

现在的 AI Agent（比如 Claude Code、Gemini CLI）光靠大模型本身是不够的，它们需要“技能”。所谓的技能，其实就是一套结构化的说明书：包含操作步骤、代码模板、验证逻辑等等。

以前大家觉得，既然 AI 这么聪明，能不能让它自己在干活前，先“查查资料”，给自己写一本操作手册，然后再照着手册干？

这就是论文里的 Self-Generated Skills（自生成技能）。

听起来很逻辑闭环对吧？结果数据一出来，全场沉默。

当研究人员让模型在任务开始前先自己生成技能文档时，平均成绩反而比什么都不做下降了 1.3 个百分点。

只有 Opus 4.6 勉强涨了 1.4%，其他的要么原地踏步，要么直接崩盘。OpenAI 的 Codex + GPT-5.2 组合，一旦用了自生成技能，性能暴跌了 5.6%。

为什么会这样？

说白了，这就是在“左口袋倒右口袋”。模型生成的内容，本质上都在它原本的概率分布里。它并没有接触到新的外部信息，只是在重复它“以为”正确的废话。

更有意思的是，这种自生成还会带来两种典型的“幻觉”模式：

一本正经地胡说八道：模型知道需要某个领域的知识，但它生成的步骤不精确、不完整。比如它知道处理数据要用 pandas，但生成的 API 调用方式是错的。
根本不知道自己不知道：遇到制造、金融这种高门槛领域，模型压根儿就没意识到自己需要专门的技能，拿着一把通用的锤子就想去修精密仪器。

评论区表示：让 AI 用自己的训练数据去教自己，就像让学生自己出题考自己，除了自我感动，没有任何增量。

人类专家的“降维打击”

如果说自生成技能是“负资产”，那人类精心编写的技能就是“神装”。

同样的测试环境，一旦换上了人类策划的技能包，所有模型的平均通过率直接飙升了 16.2 个百分点。

这差距太明显了。

看看上面两张图，这是有技能和没技能的任务通过率对比。有了人类专家的指导，原本那一片红色的“死局”（无法解决的任务），瞬间被撕开了一个大口子。

特别是在那些“隔行如隔山”的领域，人类知识的作用简直是降维打击：

医疗领域：技能包让通过率暴涨 51.9%。模型懂概率，但不懂临床数据的具体调和标准，人类给个标准，它就活了。
制造业：提升 41.9%。模型不懂工厂的设备维护手册，人类教它，它就会了。
金融与办公：SEC 文件分析、Excel 枢纽表制作，这些任务在没技能时全是 0 分，给了技能直接拉到 80% 以上。

反过来看，在数学和软件工程这些领域，技能包的作用就小很多（分别只提升了 6.0% 和 4.5%）。

这说明什么？

说明现在的模型已经被“喂”了太多的代码和数学题，它自己肚子里就有货。但一旦涉及到真实世界那些琐碎、具体、没怎么被互联网收录的“脏活累活”，模型还是个白痴。

这时候，人类的经验，就是它的救命稻草。

并不是“越多越好”

既然人类写的技能这么好用，那是不是把所有相关的文档都塞给 AI，效果最好？

并不是。

研究人员测试了不同数量的技能对结果的影响。结果发现，给 2 到 3 个技能是最佳状态，能给任务带来 18.6% 的巨大提升。

一旦技能超过 4 个，收益断崖式下跌，只剩 5.9%。

这就好比给一个人做手术。递给他一把手术刀，他能救命；给他十把刀子扔在手术台上，他可能光顾着挑刀子就忘了开刀。

论文里还提到了一个细节：文档太长、太全面，反而会坏事。

那种“详尽无遗”的技能包，实际上让性能下降了 2.9%。反而是那种“精简版”或者“适度详细”的文档效果最好。

模型也是有认知负荷的。信息量太大，它就抓不住重点了，甚至会被冗长的文档耗尽上下文窗口。

这点我个人觉得特别有现实意义。很多做企业知识库的人，总想着把公司几十年的文档一股脑丢给 RAG 或者 Agent，结果往往是垃圾进、垃圾出。

有时候，少即是多。

小模型也能翻盘

这次测试里还有一个很有意思的“以小博大”的案例。

大家通常觉得模型越大越聪明，但数据告诉我们：小模型 + 好技能 > 大模型 + 没技能。

拿 Anthropic 的 Claude Haiku 4.5 来说，这是个相对较小的模型。在没有任何技能辅助的情况下，它只能搞定 11% 的任务。

但一旦给它挂载了人类技能包，它的成绩直接冲到了 27.7%。

这个成绩，已经超过了没有任何技能加持的“大聪明” Claude Opus 4.5（22.0%）。

所以，技能是可以弥补智商差距的。

对于预算有限的公司或者个人开发者来说，与其死磕昂贵的大模型，不如花点心思把“技能”打磨好。用“专家经验”去弥补“模型智商”，这条路不仅走得通，而且性价比极高。

别把 Agent 想得太神

看完这篇论文，我对现在的 Agent 赛业多了一层清醒的认识。

我们总在担心 AI 会不会突然觉醒，自我迭代，然后把我们淘汰。

但现实是，AI 的能力导数（Derivative of capabilities）目前还是负的。 让它自己瞎琢磨，它只会越跑越偏。

它更像是一个极其聪明、但没上过班的高材生。它懂原理，懂公式，但不懂“潜规则”，不懂“行业黑话”，不懂怎么填报销单，也不懂怎么修那台老旧的机床。

它需要你，需要那个在这个行业里摸爬滚打多年的你，递给它一张写着“窍门”的小纸条。

所以，别指望它能自己“生成”未来。

未来，还是得靠咱们手把手教出来。

参考链接：
https://arxiv.org/abs/2602.12670