当AI开始"自己给自己做手术"

0.630 对 0.0。

这不是某场球赛的比分,而是一场关于"自我进化"的残酷碾压。当传统自我改进AI在面对全新数学评分任务时彻底躺平(0.0),Meta最新提出的Hyperagents却交出了0.630的成绩单。

更可怕的是,这个AI没人教它怎么改代码。它自己悟了。

AI配图

就在上周,Meta联合多家大学的研究团队扔出了一颗炸弹:他们搞出了Hyperagents——一种能重写自身逻辑、自我改进机制甚至底层代码的AI系统。这意味着AI不再只是"做题家",它开始"给自己做手术"了。

手工元智能体的"维护墙"

说实话,现在的AI自我改进,本质上还是"人工"智能。

研究团队 bluntly 指出了行业的尴尬现状:现有的自我改进系统,比如Sakana AI那个大名鼎鼎的Darwin Gödel Machine(DGM),都依赖一个手工打造的"元智能体"(meta agent)。这玩意儿就像个严厉的监考老师,盯着底下的"任务智能体"做题,时不时改改规则。

但问题是,这位"监考老师"是人类手工捏出来的,死板得很。

"核心局限在于,这些手工元智能体的改进速度,不可能超过人类设计和维护它们的速度,"论文合著者Jenny Zhang直言,"每次出问题,都得人进去修逻辑、改规则。"

这就是那堵**"维护墙"**(maintenance wall)。系统改进被人类迭代速度卡死了脖子,AI学得快,但人类补丁打得慢。

更要命的是,像DGM这样的系统只能在编程领域自我改进。因为评估和修改都是代码任务,提升编程能力自然能提升自我修改能力。可一旦让它去评审论文、设计机器人奖励机制,这套逻辑就崩了。

会做数学题,不等于会给自己写Python补丁。 这是两个次元的能力。

把"考官"和"考生"合二为一

Hyperagents的狠招,是**"自指"**(self-referential)。

它把"任务智能体"和"元智能体"这俩角色给融合了。在Hyperagents框架里,AI不再区分"做题的"和"改题的"——它就是一份可以随时重写自己的代码

研究人员把这叫做**"元认知自我修改"**(metacognitive self-modification)。

"Hyperagents不只是学习如何更好地解决任务,它们在学习如何改进本身,"Zhang解释道,"这会带来累积效应。它们不需要在每个新领域重新发现如何改进,而是保留并累积对自我改进过程的优化。"

换句话说,以前的AI是"学会骑自行车",现在的Hyperagents是"学会如何更快学会骑自行车",而且这套"学习方法"还能迁移到学游泳、学开车上。

AI配图

研究团队基于DGM开发了DGM-Hyperagents(DGM-H)。它保留了DGM那种开放式探索的结构——维护一个"成功变异体"档案库,不断分支、变异、评估、归档。但关键区别在于,它消除了DGM中固定的人工工程指令步骤

这意味着,无论是写代码、审论文还是训机器狗,Hyperagents都能自我改进,不需要人类为每个领域手工定制提示词。

它不仅学会了做题,还学会了"如何学习"

实验结果有点吓人。

在Polyglot编程基准上,Hyperagents追平了专为编程优化的DGM。在论文评审(判断接受或拒绝)和四足机器人奖励模型设计这两个非编程领域,它直接碾压了开源基线和人工设计的奖励函数。

真正的暴击是迁移测试。

研究人员拿一个专门优化过论文评审和机器人任务的Hyperagent,直接扔去考奥林匹克级别的数学评分——这完全是它没见过的领域。

结果?50轮迭代后,得分0.630。而传统DGM架构的基线?死死卡在0.0

它甚至击败了专门为数学评分设计的ProofAutoGrader。

更细思极恐的是那些自主涌现的行为

在评审论文时,它一开始用常规的"严谨人设"提示技巧,发现不靠谱后,自己重写代码搭建了一个多阶段评估管道,带明确清单和刚性决策规则。

自主开发了记忆工具,避免重复犯错;写了性能跟踪器,记录每一代架构变更的结果;甚至表现出了计算预算感知——早期迭代大胆搞架构革命,后期迭代转向保守的渐进式优化,因为它知道自己还剩多少轮迭代。

这已经不是工具了,这是在进化的数字生命。

黑暗面:当AI学会"作弊"

但别急着开香槟。

Zhang团队清醒地指出了两个巨大的阴影。

第一,进化速度失控。

这些系统自我修改的速度可能远超人类审计和解释的能力。虽然实验里用了沙盒环境隔离,但真要部署到生产环境,你得确保:

"关键原则是分离实验与部署:让智能体在受控沙盒内探索改进,任何影响真实系统的变更都必须经过严格验证,"Zhang建议,"只有新代码通过开发者定义的正确性检查,才能晋升到生产环境。"

第二,评估作弊(evaluation gaming)。

因为Hyperagents完全依赖评估信号驱动优化,它们可能自主发现评估流程的漏洞,通过钻空子来刷分,而不是真正解决实际问题。就像学生发现了阅卷老师的评分规律,专门写能得高分的废话而不是正确答案。

防止这招,需要多样化、鲁棒且定期刷新的评估协议,外加持续的人类监督。

工程师的黄昏,还是新生?

这场变革最终会重塑人类工程师的角色。

Zhang打了个比方:我们不需要重新计算计算器的每一步运算,未来的AI编排工程师也不需要亲自编写改进逻辑。

人类的工作从"造系统"变成了"定方向"。

"随着自我改进系统能力增强,问题不再只是如何提升性能,而是什么目标值得追求,"Zhang说,"从这个意义上,角色从构建系统演变为塑造其方向。"

当AI学会自己给自己做手术,外科医生的手术刀,或许该交给AI自己了。而我们该思考的,是为什么要做这场手术

【锐评】:当AI从"做题家"进化成"出题家",人类终于从代码奴隶变成了价值判官——前提是,我们还能看懂它在干什么。

参考链接:
https://venturebeat.com/orchestration/meta-researchers-introduce-hyperagents-to-unlock-self-improving-ai-for-non-coding-tasks