五个种子技能，教会AI自己"长"出235个新技能

当AI学会自我进化

有一个残酷的真相：哪怕是最强大的大模型，一旦部署上线，就"死"了。

它的参数冻结在某个时间点，知识停留在训练数据的边界。你指望它帮你解决新问题？抱歉，它只会翻来覆去地调用那点老本行。

这就是为什么企业部署AI代理如此昂贵——每遇到一个新场景，就要么重新微调模型（烧钱烧时间），要么手动给代理写新技能（还是烧钱烧时间）。

但最近，几个研究人员做了一个框架，让AI学会了自己给自己写代码、修bug、造新技能。

从5个种子技能，到41个，再到235个——整个过程，人类没插过一次手。

Memento-Skills，这个名字听起来有点玄乎。但它的核心思路其实很朴素：既然模型不能变，那就给它挂一个"外接大脑"。

AI配图

这个外接大脑不是普通的记忆库。它是一套可以自己修改自己的技能系统。

传统的AI代理遇到新任务，会去记忆库里搜"语义最相似"的技能。比如你要"处理退款"，它可能给你调出"重置密码"的脚本——因为两个文档里都有"用户""账户""操作"这些词，听起来差不多，但根本不是一回事。

Memento-Skills做了两件事：

第一，它的技能路由器不用"语义相似度"判断，而是用"行为效用"判断。简单说，它不是看技能"说的是什么"，而是看技能"能不能把事办成"。

第二，也是最狠的——它会给技能"打补丁"。任务失败了？系统会反思哪里出了问题，然后直接去改技能里的代码或提示词，把漏洞补上。

这已经不是"记录"了，这是"进化"。

研究人员做了两组实验，用的是Google的Gemini-3.1-Flash——一个性能尚可但绝对谈不上最顶尖的模型。

第一组测试是GAIA基准，要求AI完成复杂的多步骤推理、网页浏览、工具调用。起点是5个原子级技能：基本的网络搜索、终端操作之类的。

测试结束后，系统自己"长"出了41个技能。

第二组测试更夸张。叫"HLE"（人类最后考试），涵盖数学、生物等八个学科的专家级题目。系统从同样的5个种子技能出发，最终积累了235个独立技能。

AI配图

性能数据更直观：

在GAIA上，Memento-Skills的正确率是66%，比静态基线高出13.7个百分点。在HLE上，它直接把17.9%的基线提升到了38.7%——翻了一倍还多。

但更有意思的是这个对比：标准BM25检索的端到端成功率只有50%，而Memento-Skills达到了80%。

差了30个百分点。

这差距来自于"找对技能"和"找到语义相似的技能"的本质区别。

没有免费午餐。

Memento-Skills的论文作者王军说了大实话：这套方法适合有"结构化工作流"的场景。任务之间要有相似性，技能才能迁移、复用、累积。

如果是零散的、彼此无关的任务，这套系统就没什么优势——它没有经验可借鉴，只能从头学起。

另外，物理世界的具身代理（比如控制机械臂的AI）目前还不适用。任务周期太长的场景，也需要更复杂的多代理协作。

还有最关键的问题：安全。

当AI开始自己修改生产代码，哪怕有自动单元测试把关，企业真的放心吗？

王军自己的说法是：需要一套"评估或裁判系统"来引导AI的自我改进，而不是让它无限制地自我演化。

AI配图

说白了，绳子要攥在人类手里。

五个种子技能，教会AI自己"长"出新技能。

这个故事最迷人的地方不在于技术细节，而在于它戳破了一个幻觉——我们总以为AI的能力上限是模型参数决定的。但Memento-Skills证明：给对方法论，"冻结"的模型也能持续生长。

当然，生长往哪长、怎么长、谁来把关，这些问题还没答案。

但至少，方向有了。

【锐评】：这篇论文让我想起一个比喻——以前的AI像被封印的精灵，Memento-Skills像是给精灵配了支笔，让它自己画符咒。画得好是惊喜，画出乱子就是惊吓。技术本身是中性的，关键是使用它的人配不配得上这份信任。

参考链接：
https://venturebeat.com/orchestration/new-framework-lets-ai-agents-rewrite-their-own-skills-without-retraining-the