一个小发现,把整个AI行业搞"分裂"了
先说个反直觉的结论:
以后训练AI,可能不用再堆参数、烧显卡了。
威斯康星大学麦迪逊分校和斯坦福大学的研究人员发现了一个"秘密"——如果你在推理阶段让模型多"想一想"(生成多个答案再选最优),那你应该训练一个小得多的模型,但用多得多得多得多……的数据去"喂"它。
而且这样做的效果,比按照行业"祖传秘方"训练出来的大模型还要好。
这意味着什么?
意味着那些动辄几十亿美元训练大模型的公司,可能一直在花冤枉钱。
也意味着,你用一个小模型+一点推理时间,就能追平甚至超越那些"巨无霸"。
这个研究叫Train-to-Test (T²) scaling laws。名字听起来很学术,但它要干的事情其实很简单:
把训练和推理的成本放在一起算总账。
行业祖传秘方,失效了
先科普一个概念:Scaling Laws(扩展定律)。
这是AI行业的"圣经"之一。简单说,它告诉你:给定一笔预算,模型参数该设多大、训练数据该用多少。
目前行业通用的标准叫Chinchilla规则——大约每1个参数,要配20个训练token。这来自DeepMind 2022年的一篇论文,被视为"金科玉律"。
Llama、Gemma、Qwen这些主流模型家族,其实都在"有意"违反这个规则,把小模型往死里训练。
但问题是——没人知道该违反到什么程度。
因为训练阶段的扩展定律和推理阶段的扩展定律,长期以来是"各算各的账"。
Nicholas Roberts(论文共同作者)说了一句大实话:
"当每一次推理调用都很贵的时候,整个推理栈就崩溃了。这正是大模型+重复采样的现状。"
翻译成人话就是:如果你想让AI多"思考"一会儿(比如生成100个答案选最好的),但每次"思考"都要花很多钱,那这个玩法根本玩不起。
传统的扩展定律只告诉你怎么省钱训练,没告诉你推理阶段怎么省钱。
两个完全割裂的系统,怎么做联合优化?
没人知道。
直到这篇论文。
一个公式,把训练和推理"焊"在一起
T²定律的核心,是把三个变量放进同一个方程:
模型参数大小(N) × 训练数据量(D) × 推理时的采样次数(k)
这三个东西,过去是分开优化的。现在,研究人员用数学证明,它们应该放在一起"称"。
具体怎么操作呢?
他们测试了超过100个语言模型,参数从500万到9.01亿不等。其中21个是专门训练的新检查点——全部都是"高度过训练"的小模型。
然后在8个不同的任务上测试,包括:
- SciQ(科学知识问答)
- OpenBookQA(开放图书问答)
- 算术推理
- 空间推理
- 知识召回
- 以及一些合成任务
结果呢?
在计算固定的前提下,小模型+超多数据+多次推理采样,全面吊打大模型+标准训练。
对,是全面吊打。8个任务,无一例外。
这就有点颠覆了。
按照传统的Chinchilla规则,你应该训练一个"不大不小"的模型。但T²定律告诉你:应该训练一个"很小很小"的模型,然后让它在推理时多跑几次。
省下来的训练成本,够你在推理阶段"浪"很久。
什么场景适合用这个?
不过Nicholas Roberts也说了,这个方法不是万能的。
"对于知识密集型应用,比如聊天模型,你可能感受不到这么大的收益。"
为什么?
因为聊天场景不需要模型"反复尝试"。你问一个问题,模型答一次就够了。多答几次,除了让API账单变长,没啥用。
但推理密集型场景就不一样了。
比如写代码。
代码是可以"试错"的。一个好的编程模型,可能会生成几十段代码,然后挑选能编译通过的那个。在这种情况下,让模型多"想"几次,收益巨大。
再比如数学证明、逻辑推理、复杂决策——这些都需要模型反复尝试、纠错、验证。
这些场景下,T²定律就是"省钱神器"。
开源了,但有个隐忧
好消息是,研究团队计划开源他们的检查点和代码。
企业可以直接把自己的数据灌进去,测试T²扩展行为。技术门槛"低得惊人"。
Roberts说:"用现在的模型做测试时扩展,不需要什么花里胡哨的东西。KV缓存之类的优化手段直接能用。"
但也有一个隐患——数据墙。
Roberts自己提到了:
"如果把过训练推到极致,你可能会把训练数据用光。"
高质量的互联网数据,正在以惊人的速度被消耗。T²定律鼓励的是"用更多数据训练更小的模型",这本身没问题——但如果数据本身不够了呢?
这可能是下一个瓶颈。
写代码的快乐,可能要变便宜了
说回这篇论文最让我兴奋的点。
它本质上是在说:推理时代的AI,成本结构正在被重写。
过去,我们觉得"模型越大越好"。为了追求SOTA(State of the Art),必须烧钱堆参数。
但T²定律提供了另一条路:
不追求模型本身的"聪明",而是通过"多试几次"来弥补。
这对于资源有限的开发者来说,简直是福音。
你不需要几十亿美元的算力,也能训练出强大的推理模型。
你只需要:好数据 + 聪明的预算分配。
Roberts说:
"T²从根本上改变了谁能构建强大的推理模型。你可能不需要海量的算力预算。你需要的是好数据,以及训练和推理预算的智能分配。"
这大概就是所谓的"民主化"吧。
当然,前提是——你的场景真的需要多次推理。
如果只是聊天、问答、写文案,那可能还是大模型香。
但如果你正在做AI编程、数学推理、Agent工作流——这篇论文值得你认真读一读。
【锐评】:这篇论文最大的价值,是把AI行业长期割裂的"训练账本"和"推理账本"合并了。简单说就是:别光算训练花多少钱,得算总账。小模型多跑几次,反而更划算——这个反直觉的结论,可能会改变未来AI的竞争格局。
参考链接:
https://venturebeat.com/orchestration/train-to-test-scaling-explained-how-to-optimize-your-end-to-end-ai-compute-budget-for-inference