73美元。
这不是一顿高档日料的账单,也不是一件潮牌T恤的价格。
这是前特斯拉AI总监、OpenAI创始成员Andrej Karpathy,训练出一个GPT-2级别大模型的全部成本。
就在几天前,他在X上扔出了这个核弹级的数据:仅用一张8XH100显卡,跑了3个小时,花费约73美元。
而时间倒回2019年,OpenAI训练初代GPT-2时,用了32个TPU v3芯片,整整跑了一周,烧掉了43,000美元。7年时间,600倍的成本暴跌。
说实话,这比任何关于“AGI何时到来”的预测都要来得震撼。因为这不仅仅是一个技术指标,这是一次权力的让渡。
那个“执念”成真了
Karpathy对GPT-2有种近乎偏执的喜爱。
在他眼里,GPT-2是现代LLM(大语言模型)堆栈第一次以“可识别的现代形式”集结完成的产物。简单说,它是祖师爷。
但这几年,他一直在琢磨一件事:既然技术都在进步,为什么训练一个“祖师爷”级别的模型,还得像当年那样砸钱?他怀疑,这事儿肯定能便宜干。
事实证明,他不仅对了,而且做得有点过分。
他搞了个叫nanochat的项目,目标极其单纯:把训练GPT-2的成本打到地板上。
最新提交的“Jan29”模型,只用了3.04小时,就在单张8XH100节点上跑出了比当年OpenAI更高的CORE分数(一个综合评估指标)。
当年的4.3万美元,现在的73美元。
这中间的差价,足以让任何还在为算力账单发愁的初创公司老板感到一阵眩晕。## “删不掉”的优化器
这事儿最有趣的地方,不在于他用了多贵的硬件,而在于他怎么“压榨”这些硬件。
在GitHub的详细拆解里,Karpathy列出了一堆听起来就很硬核的优化手段。
老实讲,有些技术细节看着让人头皮发麻。
比如Flash Attention 3 kernels,这玩意儿不仅快,还允许通过window_size参数玩出“交替注意力模式”的花活;比如滑动窗口注意力,像切香肠一样把上下文切成小块,极大地节省算力。但最让我觉得有“人味儿”的,是关于Muon优化器的故事。
Karpathy在推文里半开玩笑地说,他试着花了一整天时间想把Muon优化器删掉,换回标准的AdamW,结果**“根本删不掉”**。
只要一删,效果就崩。
这就像是一个老司机告诉你,这辆车之所以跑得快,不是因为引擎换了,而是因为那个不起眼的火花塞——你换了它,车就废了。
除此之外,他还搞了一堆骚操作:把激活函数从GELU换成了ReLU²(稀疏且便宜),给logits加了个15 * tanh的软帽子防止数值溢出,甚至在某些层里加了Value Embeddings——这玩意儿增加了1.5亿个参数,但几乎不增加计算量(FLOPs)。这哪里是写代码,这简直是在做算力微雕。
成本崩塌,谁在裸泳?
这种成本下降的速度,其实比模型能力的提升更可怕。
评论里有位叫MingtaKaivo的网友说得很到位:“每年2.5倍的成本下降率,是目前AI领域最被低估的趋势。”
大家都盯着GPT-5、Claude-4谁更聪明,但Karpathy这波操作直接把底裤给扒了——谁都能玩了。
这让我想起了DeepSeek-V3.2的例子。虽然它在长上下文下疯狂消耗token,但从成本角度看,它的价格仅仅是GPT-5的1/24。这和Karpathy的73美元GPT-2是同一个逻辑:**在超长上下文和持续扩展强化学习之间,巨头们正在寻找一种极致的性价比。**更有意思的是,这种趋势正在击穿“中心化提供商”的护城河。
网友SynthesisLedger一针见血:“这是定制化LLM堆栈的巨大解锁——73美元的训练成本意味着独立开发者现在可以硬化自己的逻辑,不再受制于上游的模型 drift(漂移)。集中式供应商刚刚收到了一张现实检验单。”
说白了,以前你想玩AI,得求着OpenAI、Anthropic给接口;现在,只要你有台好服务器,几百块钱,你就能在自家车库里磨出一把趁手的兵器。## 哪怕是马斯克,也得算账
这种对效率的极致追求,似乎成了硅谷的新共识。
虽然方向不同,但马斯克在X公司的做法也异曲同工。据The Information消息,马斯克把负责打击垃圾邮件和信任安全的工程团队裁了90%——从收购时的100多人,砍到现在的不足10人。
虽然这导致X上的垃圾信息泛滥,被很多人诟病,但从商业逻辑看,这和Karpathy砍掉GPT-2训练成本是同一种思维:**不计成本的“大而全”时代结束了,现在是“精而准”的天下。**只不过,Karpathy是用技术做减法,马斯克是用刀子做减法。
比咖啡还便宜的未来
Karpathy搞了个排行榜,叫“Time to GPT-2”。
现在的第一名是他自己的“Jan29”模型,3.04小时。
他说这很有趣,希望能有更多人一起来迭代。
我觉得这事儿才刚刚开始。
你看评论区的预测:**“按照这个速度,到2030年,训练一个GPT-2级别的模型,可能比一杯咖啡还便宜。”**这不是开玩笑。
当训练一个能听懂人话、能写代码的模型,成本比一杯星巴克拿铁还低时,我们熟知的软件行业、内容创作行业,甚至教育行业,都会被重写。
Karpathy在推文最后说,他希望nanochat能成为一个很好的、干净的实验性LLM工具,为了好玩,也为了学习。
但我看到的,是一个门槛正在消失。
那个曾经被几亿美元算力预算高高筑起的AI神坛,现在正被几十美元的账单,一点点拉回人间。
这到底是技术的平权,还是混乱的开始?
反正,73美元就能入场,你没理由不试一试。
参考链接:
https://x.com/karpathy/status/2017703360393318587