一个小发现,把整个AI行业搞"分裂"了

先说个反直觉的结论:

以后训练AI,可能不用再堆参数、烧显卡了。

AI配图

威斯康星大学麦迪逊分校和斯坦福大学的研究人员发现了一个"秘密"——如果你在推理阶段让模型多"想一想"(生成多个答案再选最优),那你应该训练一个小得多的模型,但用多得多得多得多……的数据去"喂"它。

而且这样做的效果,比按照行业"祖传秘方"训练出来的大模型还要好。

这意味着什么?

意味着那些动辄几十亿美元训练大模型的公司,可能一直在花冤枉钱。

也意味着,你用一个小模型+一点推理时间,就能追平甚至超越那些"巨无霸"。

这个研究叫Train-to-Test (T²) scaling laws。名字听起来很学术,但它要干的事情其实很简单:

把训练和推理的成本放在一起算总账。

行业祖传秘方,失效了

先科普一个概念:Scaling Laws(扩展定律)

这是AI行业的"圣经"之一。简单说,它告诉你:给定一笔预算,模型参数该设多大、训练数据该用多少。

目前行业通用的标准叫Chinchilla规则——大约每1个参数,要配20个训练token。这来自DeepMind 2022年的一篇论文,被视为"金科玉律"。

Llama、Gemma、Qwen这些主流模型家族,其实都在"有意"违反这个规则,把小模型往死里训练。

AI配图

但问题是——没人知道该违反到什么程度。

因为训练阶段的扩展定律和推理阶段的扩展定律,长期以来是"各算各的账"。

Nicholas Roberts(论文共同作者)说了一句大实话:

"当每一次推理调用都很贵的时候,整个推理栈就崩溃了。这正是大模型+重复采样的现状。"

翻译成人话就是:如果你想让AI多"思考"一会儿(比如生成100个答案选最好的),但每次"思考"都要花很多钱,那这个玩法根本玩不起。

传统的扩展定律只告诉你怎么省钱训练,没告诉你推理阶段怎么省钱。

两个完全割裂的系统,怎么做联合优化?

没人知道。

直到这篇论文。

一个公式,把训练和推理"焊"在一起

T²定律的核心,是把三个变量放进同一个方程:

模型参数大小(N) × 训练数据量(D) × 推理时的采样次数(k)

AI配图

这三个东西,过去是分开优化的。现在,研究人员用数学证明,它们应该放在一起"称"。

具体怎么操作呢?

他们测试了超过100个语言模型,参数从500万到9.01亿不等。其中21个是专门训练的新检查点——全部都是"高度过训练"的小模型。

然后在8个不同的任务上测试,包括:

  • SciQ(科学知识问答)
  • OpenBookQA(开放图书问答)
  • 算术推理
  • 空间推理
  • 知识召回
  • 以及一些合成任务

结果呢?

在计算固定的前提下,小模型+超多数据+多次推理采样,全面吊打大模型+标准训练。

对,是全面吊打。8个任务,无一例外。

这就有点颠覆了。

按照传统的Chinchilla规则,你应该训练一个"不大不小"的模型。但T²定律告诉你:应该训练一个"很小很小"的模型,然后让它在推理时多跑几次。

省下来的训练成本,够你在推理阶段"浪"很久。

什么场景适合用这个?

不过Nicholas Roberts也说了,这个方法不是万能的。

"对于知识密集型应用,比如聊天模型,你可能感受不到这么大的收益。"

为什么?

因为聊天场景不需要模型"反复尝试"。你问一个问题,模型答一次就够了。多答几次,除了让API账单变长,没啥用。

推理密集型场景就不一样了。

比如写代码

代码是可以"试错"的。一个好的编程模型,可能会生成几十段代码,然后挑选能编译通过的那个。在这种情况下,让模型多"想"几次,收益巨大。

再比如数学证明、逻辑推理、复杂决策——这些都需要模型反复尝试、纠错、验证。

这些场景下,T²定律就是"省钱神器"。

开源了,但有个隐忧

好消息是,研究团队计划开源他们的检查点和代码。

企业可以直接把自己的数据灌进去,测试T²扩展行为。技术门槛"低得惊人"。

Roberts说:"用现在的模型做测试时扩展,不需要什么花里胡哨的东西。KV缓存之类的优化手段直接能用。"

但也有一个隐患——数据墙

Roberts自己提到了:

"如果把过训练推到极致,你可能会把训练数据用光。"

高质量的互联网数据,正在以惊人的速度被消耗。T²定律鼓励的是"用更多数据训练更小的模型",这本身没问题——但如果数据本身不够了呢?

这可能是下一个瓶颈。

写代码的快乐,可能要变便宜了

说回这篇论文最让我兴奋的点。

它本质上是在说:推理时代的AI,成本结构正在被重写。

过去,我们觉得"模型越大越好"。为了追求SOTA(State of the Art),必须烧钱堆参数。

但T²定律提供了另一条路:

不追求模型本身的"聪明",而是通过"多试几次"来弥补。

这对于资源有限的开发者来说,简直是福音。

你不需要几十亿美元的算力,也能训练出强大的推理模型。

你只需要:好数据 + 聪明的预算分配。

Roberts说:

"T²从根本上改变了谁能构建强大的推理模型。你可能不需要海量的算力预算。你需要的是好数据,以及训练和推理预算的智能分配。"

这大概就是所谓的"民主化"吧。

当然,前提是——你的场景真的需要多次推理。

如果只是聊天、问答、写文案,那可能还是大模型香。

但如果你正在做AI编程、数学推理、Agent工作流——这篇论文值得你认真读一读。


【锐评】:这篇论文最大的价值,是把AI行业长期割裂的"训练账本"和"推理账本"合并了。简单说就是:别光算训练花多少钱,得算总账。小模型多跑几次,反而更划算——这个反直觉的结论,可能会改变未来AI的竞争格局。

参考链接:
https://venturebeat.com/orchestration/train-to-test-scaling-explained-how-to-optimize-your-end-to-end-ai-compute-budget-for-inference