当全世界都在"卷"速度,这群人偏要"慢"下来

100M tokens,无限算力,5.5倍效率提升。

这不是什么科幻设定,而是一场正在GitHub上进行的静默革命。当整个AI行业还在比谁训练得更快、堆料更猛时,Q Labs突然调转船头,搞了个"Slowrun"——限制数据,挥霍算力

听起来很反直觉?确实。但正是这种反直觉,可能戳中了AI行业最痛的软肋。

Slowrun baseline on 100M tokens

算力过剩,数据饥荒

先讲个残酷的事实:算力的增长速度,远远甩开了数据。

我们现在用的Scaling Law(缩放定律)要求算力和数据按比例增长。但现实是,你可以买到1000倍的GPU,却买不到1000倍的高质量文本。机器人、生物信息学早就撞上了这堵墙——算力管够,数据没有,模型就是上不去。

Q Labs的人看明白了这一点。他们搞了个NanoGPT Slowrun,规则简单粗暴:

  • 只能用FineWeb的1亿token(约等于几本书的量)
  • 算力随便用,想跑多久跑多久
  • 验证集loss最低者赢

这跟之前爆火的modded-nanogpt完全相反。后者比谁训练得快,优化的是wall-clock time;Slowrun比谁"榨"得干,优化的是数据效率

说实话,这个设定有点"变态"。但正是这种变态,逼出了一些被速度竞赛埋没的"慢功夫"。

那些"快"时代被抛弃的绝招

在"快"逻辑里,没人敢用的技术,在这里成了香饽饽。

Muon优化器干翻了AdamW、SOAP、MAGMA这些主流选手。多轮训练(multi-epoch)被证明真的有用——以前大家都怕过拟合,不敢多刷几遍数据,现在发现配合激进正则化(weight decay拉到标准值的16倍,再加dropout),居然能scale到更大的参数量。

更骚的是模型集成(ensembling)。不是简单选个最好的,而是训练8个不同的模型一起上。在低数据 regime 里,模型多样性比单个模型质量更重要。

短短几天,社区就把数据效率从2.4倍推到了5.5倍。翻了一倍多。

Updated Slowrun

他们现在放话:10倍短期内可达,100倍年底有望。

数据枯竭时代的生存指南

这不仅仅是技术游戏。这关乎AI行业的生死存亡。

有人算过,高质量文本数据可能在2026年就被吃干抹净。当数据成为真正的瓶颈,"大力出奇迹"的暴力美学就玩不下去了。你得学会从石头里挤油

Slowrun探索的正是这个"后数据时代"的生存技能:

二阶优化器、自然梯度方法、扩散模型、课程学习、进化搜索、模型复杂度优化...

这些方向以前因为太"贵"而被忽视。现在,贵不是问题,浪费数据才是原罪

有意思的是评论区的一个观察:当你有无限数据时,糟糕的架构设计可以被海量token掩盖;但当数据锁死,每一个设计决策——tokenizer词表、attention模式、位置编码、正则化——都会被放大镜审视,样本效率的差异赤裸裸地暴露出来。

这逼着你做"精致"的算法,而不是"粗暴"的堆料。

但真的不会过拟合吗?

当然有人质疑。第5条评论就扎心了:

"你们这么反复优化验证集loss,不怕把模型训成'题库选手'吗?看似在泛化,实则在死记硬背。"

AI配图

这是个好问题。Q Labs用了验证集做early stopping,但meta-optimizing模型架构本身确实有风险。不过换个角度想,如果能在100M token上逼出真正的泛化能力,那方法论本身就是突破。

另一个有趣的质疑是:为什么拿modded-nanogpt当baseline?那玩意儿是为速度优化的,不是为数据效率。干嘛不用vanilla NanoGPT?

可能Q Labs就是想用这种"不对称对比"制造冲击感吧。毕竟,2.4x到5.5x的数字,打的就是那些"快但糙"的优化器

100倍效率意味着什么?

如果年底真的摸到100倍数据效率,行业规则会被彻底改写。

现在训练GPT-4级别的模型需要万亿token。如果效率提升100倍,百亿级token就能干同样的事。这意味着:

  • 小厂也能训大模型,数据不再是护城河
  • 垂直领域(医疗、法律、生物)的专有模型爆发,因为每个领域的高质量数据本来就少
  • 合成数据的价值重估——如果提取效率够高,人造数据也许真的够用

AI配图

当然,前提是这些"慢功夫"能scale到大模型上。NanoGPT毕竟只是玩具级别的基准。

但方向是对的。当算力像自来水一样便宜,数据像石油一样稀缺,算法创新的回报率正在飙升

Slowrun打开了一扇门。门后面是数据饥荒时代的AI新范式。

AI配图

你准备好"慢"下来了吗?

【kimi-k2.5锐评】:当行业集体患上"数据焦虑症",Slowrun用"自断一臂"的极端方式证明:算法创新仍有百倍红利,算力过剩时代,"精致"比"暴力"更值钱。

参考链接:
https://qlabs.sh/slowrun