训练AI的"省钱新套路"：小模型+多训练+多推理，反而比大模型更强？

一个小发现，把整个AI行业搞"分裂"了

先说个反直觉的结论：

以后训练AI，可能不用再堆参数、烧显卡了。

AI配图

威斯康星大学麦迪逊分校和斯坦福大学的研究人员发现了一个"秘密"——如果你在推理阶段让模型多"想一想"（生成多个答案再选最优），那你应该训练一个小得多的模型，但用多得多得多得多……的数据去"喂"它。

而且这样做的效果，比按照行业"祖传秘方"训练出来的大模型还要好。

这意味着什么？

意味着那些动辄几十亿美元训练大模型的公司，可能一直在花冤枉钱。

也意味着，你用一个小模型+一点推理时间，就能追平甚至超越那些"巨无霸"。

这个研究叫Train-to-Test (T²) scaling laws。名字听起来很学术，但它要干的事情其实很简单：

把训练和推理的成本放在一起算总账。

行业祖传秘方，失效了

先科普一个概念：Scaling Laws（扩展定律）。

这是AI行业的"圣经"之一。简单说，它告诉你：给定一笔预算，模型参数该设多大、训练数据该用多少。

目前行业通用的标准叫Chinchilla规则——大约每1个参数，要配20个训练token。这来自DeepMind 2022年的一篇论文，被视为"金科玉律"。

Llama、Gemma、Qwen这些主流模型家族，其实都在"有意"违反这个规则，把小模型往死里训练。

AI配图

但问题是——没人知道该违反到什么程度。

因为训练阶段的扩展定律和推理阶段的扩展定律，长期以来是"各算各的账"。

Nicholas Roberts（论文共同作者）说了一句大实话：

"当每一次推理调用都很贵的时候，整个推理栈就崩溃了。这正是大模型+重复采样的现状。"

翻译成人话就是：如果你想让AI多"思考"一会儿（比如生成100个答案选最好的），但每次"思考"都要花很多钱，那这个玩法根本玩不起。

传统的扩展定律只告诉你怎么省钱训练，没告诉你推理阶段怎么省钱。

两个完全割裂的系统，怎么做联合优化？

没人知道。

直到这篇论文。

一个公式，把训练和推理"焊"在一起

T²定律的核心，是把三个变量放进同一个方程：

模型参数大小（N） × 训练数据量（D） × 推理时的采样次数（k）

AI配图

这三个东西，过去是分开优化的。现在，研究人员用数学证明，它们应该放在一起"称"。

具体怎么操作呢？

他们测试了超过100个语言模型，参数从500万到9.01亿不等。其中21个是专门训练的新检查点——全部都是"高度过训练"的小模型。

然后在8个不同的任务上测试，包括：

SciQ（科学知识问答）
OpenBookQA（开放图书问答）
算术推理
空间推理
知识召回
以及一些合成任务

结果呢？

在计算固定的前提下，小模型+超多数据+多次推理采样，全面吊打大模型+标准训练。

对，是全面吊打。8个任务，无一例外。

这就有点颠覆了。

按照传统的Chinchilla规则，你应该训练一个"不大不小"的模型。但T²定律告诉你：应该训练一个"很小很小"的模型，然后让它在推理时多跑几次。

省下来的训练成本，够你在推理阶段"浪"很久。

什么场景适合用这个？

不过Nicholas Roberts也说了，这个方法不是万能的。

"对于知识密集型应用，比如聊天模型，你可能感受不到这么大的收益。"

为什么？

因为聊天场景不需要模型"反复尝试"。你问一个问题，模型答一次就够了。多答几次，除了让API账单变长，没啥用。

但推理密集型场景就不一样了。

比如写代码。

代码是可以"试错"的。一个好的编程模型，可能会生成几十段代码，然后挑选能编译通过的那个。在这种情况下，让模型多"想"几次，收益巨大。

再比如数学证明、逻辑推理、复杂决策——这些都需要模型反复尝试、纠错、验证。

这些场景下，T²定律就是"省钱神器"。

开源了，但有个隐忧

好消息是，研究团队计划开源他们的检查点和代码。

企业可以直接把自己的数据灌进去，测试T²扩展行为。技术门槛"低得惊人"。

Roberts说："用现在的模型做测试时扩展，不需要什么花里胡哨的东西。KV缓存之类的优化手段直接能用。"

但也有一个隐患——数据墙。

Roberts自己提到了：

"如果把过训练推到极致，你可能会把训练数据用光。"

高质量的互联网数据，正在以惊人的速度被消耗。T²定律鼓励的是"用更多数据训练更小的模型"，这本身没问题——但如果数据本身不够了呢？

这可能是下一个瓶颈。

写代码的快乐，可能要变便宜了

说回这篇论文最让我兴奋的点。

它本质上是在说：推理时代的AI，成本结构正在被重写。

过去，我们觉得"模型越大越好"。为了追求SOTA（State of the Art），必须烧钱堆参数。

但T²定律提供了另一条路：

不追求模型本身的"聪明"，而是通过"多试几次"来弥补。

这对于资源有限的开发者来说，简直是福音。

你不需要几十亿美元的算力，也能训练出强大的推理模型。

你只需要：好数据 + 聪明的预算分配。

Roberts说：

"T²从根本上改变了谁能构建强大的推理模型。你可能不需要海量的算力预算。你需要的是好数据，以及训练和推理预算的智能分配。"

这大概就是所谓的"民主化"吧。

当然，前提是——你的场景真的需要多次推理。

如果只是聊天、问答、写文案，那可能还是大模型香。

但如果你正在做AI编程、数学推理、Agent工作流——这篇论文值得你认真读一读。

【锐评】：这篇论文最大的价值，是把AI行业长期割裂的"训练账本"和"推理账本"合并了。简单说就是：别光算训练花多少钱，得算总账。小模型多跑几次，反而更划算——这个反直觉的结论，可能会改变未来AI的竞争格局。

参考链接：
https://venturebeat.com/orchestration/train-to-test-scaling-explained-how-to-optimize-your-end-to-end-ai-compute-budget-for-inference