1773次实验零人工干预:ASI-EVOLVE正在重写AI研发的游戏规则

凌晨三点,你的MLOps工程师还在手动调参。

而另一边,一台机器刚刚完成了第1773轮架构搜索,生成了105个全新的线性注意力机制,全程没人碰过键盘

AI配图

这不是科幻。SII-GAIR实验室刚扔出的开源框架ASI-EVOLVE,正在把"AI自己搞科研"从口号变成日常。

手动调参的时代,该破防了

做AI研发的人都知道,现在的流程有多拧巴。

假设你要优化一个预训练数据管道。理论上存在成千上万种清洗策略组合,但你的团队只能试其中一小撮——不是不想试,是试不起。每次实验都要烧掉几十到几百个GPU小时,还要有人盯着日志做分析。

更糟的是,就算试出了好结果,经验也只会留在某个工程师的脑子里。下次换个项目,一切从头再来。

SII-GAIR团队把这叫做"数据与设计瓶颈"。说白了,人类的手速和记性,已经成了AI进步的限速阀

ASI-EVOLVE就是来砸场子的。

它不是在跑实验,是在"进化认知"

这个框架狠就狠在,它不只是一个自动调参工具,而是一个完整的"AI-for-AI"研究代理。

系统里有五个角色在闭环打工:

**Cognition Base(认知库)**是它的脑容量。预装了人类论文里的经验、启发式规则和已知坑点,避免它像无头苍蝇一样乱撞。

**Researcher(研究员)**负责读文献和实验记录,提出新假设。要么改几行代码,要么直接写个新程序。

**Engineer(工程师)**去跑实验。但这家伙很鸡贼,设置了墙钟限制和早停机制,发现苗头不对立马掐掉,不浪费GPU

**Analyzer(分析器)**是最关键的。它要从原始训练日志、基准分数和效率追踪里,提炼出"人话版"的因果分析。

最后丢进Database(数据库),变成可复用的知识。

"以前的框架是进化候选方案,ASI-EVOLVE进化的是认知本身。"

AI配图

换句话说,它越跑越聪明,而且记得自己是怎么变聪明的。

三场硬仗,打得人类基准线没脾气

光说不练假把式。研究团队在三个AI核心领域做了测试,结果有点离谱。

第一仗:数据清洗。

给它一堆脏数据(HTML标签、格式混乱的文本),ASI-EVOLVE自己诊断问题,制定了"温和清洗+领域保留"策略。3B参数的小模型在它洗过的数据上训练,MMLU基准直接涨了18分

18分什么概念?很多模型迭代半年都涨不了这么多。

第二仗:架构设计。

1773轮自主探索,零人工干预。它搞出了105个新的线性注意力架构,干翻了DeltaNet这个人类精心设计的效率标杆

秘诀是发明了"多尺度路由机制"——简单说,就是让模型自己决定在哪多花算力,在哪省着点。

第三仗:强化学习算法。

在数学推理基准AMC32和AIME24上,它设计的算法打败了GRPO基线。其中一个变种搞出了"预算约束动态半径"机制,专门对付噪声数据的训练抖动。

机器开始理解"预算约束"这种工程直觉了。 细想挺瘆得慌,又挺带感。

开源代码背后,藏着个更大的局

研究团队把代码开源了,但野心不止于学术圈。

对企业来说,这东西意味着你可以把自家私有领域的知识塞进Cognition Base,让机器在你内部的数据和模型上自动迭代。以前只有OpenAI、Google这种巨头才玩得起的架构搜索,现在中小团队也能蹭一蹭

当然,它还没法完全取代人类。设计空间的定义、奖励信号的设定、最终的方向把控,还是需要人。

但那些重复性的、烧卡的、半夜三点盯服务器的脏活累活,确实可以交给一个不会疲倦、不会跳槽、不会把经验带走的AI同事了

当AI开始自己写论文、自己跑实验、自己总结教训,我们或许该问的不是"它会不会取代工程师",而是:

如果机器比人更懂怎么调模型,那人类工程师的下一个战场,到底在哪里?

AI配图

【锐评】:ASI-EVOLVE最可怕的不是自动化,而是它把"研发经验"这种原本只能存在人类大脑里的暗知识,变成了可积累的数据资产——这才是对MLOps工程师真正的降维打击。

参考链接:
https://venturebeat.com/orchestration/new-ai-framework-autonomously-optimizes-training-data-architectures-and-algorithms-outperforming-human-baselines