73美元。

这不是一顿高档日料的账单,也不是一件潮牌T恤的价格。

AI配图

这是前特斯拉AI总监、OpenAI创始成员Andrej Karpathy,训练出一个GPT-2级别大模型的全部成本。

就在几天前,他在X上扔出了这个核弹级的数据:仅用一张8XH100显卡,跑了3个小时,花费约73美元。

而时间倒回2019年,OpenAI训练初代GPT-2时,用了32个TPU v3芯片,整整跑了一周,烧掉了43,000美元7年时间,600倍的成本暴跌。

说实话,这比任何关于“AGI何时到来”的预测都要来得震撼。因为这不仅仅是一个技术指标,这是一次权力的让渡。

那个“执念”成真了

Karpathy对GPT-2有种近乎偏执的喜爱。

在他眼里,GPT-2是现代LLM(大语言模型)堆栈第一次以“可识别的现代形式”集结完成的产物。简单说,它是祖师爷。

但这几年,他一直在琢磨一件事:既然技术都在进步,为什么训练一个“祖师爷”级别的模型,还得像当年那样砸钱?他怀疑,这事儿肯定能便宜干。

事实证明,他不仅对了,而且做得有点过分。

他搞了个叫nanochat的项目,目标极其单纯:把训练GPT-2的成本打到地板上。

最新提交的“Jan29”模型,只用了3.04小时,就在单张8XH100节点上跑出了比当年OpenAI更高的CORE分数(一个综合评估指标)。

当年的4.3万美元,现在的73美元。

这中间的差价,足以让任何还在为算力账单发愁的初创公司老板感到一阵眩晕。## “删不掉”的优化器

这事儿最有趣的地方,不在于他用了多贵的硬件,而在于他怎么“压榨”这些硬件。

在GitHub的详细拆解里,Karpathy列出了一堆听起来就很硬核的优化手段。

AI配图

老实讲,有些技术细节看着让人头皮发麻。

比如Flash Attention 3 kernels,这玩意儿不仅快,还允许通过window_size参数玩出“交替注意力模式”的花活;比如滑动窗口注意力,像切香肠一样把上下文切成小块,极大地节省算力。但最让我觉得有“人味儿”的,是关于Muon优化器的故事。

Karpathy在推文里半开玩笑地说,他试着花了一整天时间想把Muon优化器删掉,换回标准的AdamW,结果**“根本删不掉”**。

只要一删,效果就崩。

这就像是一个老司机告诉你,这辆车之所以跑得快,不是因为引擎换了,而是因为那个不起眼的火花塞——你换了它,车就废了。

除此之外,他还搞了一堆骚操作:把激活函数从GELU换成了ReLU²(稀疏且便宜),给logits加了个15 * tanh的软帽子防止数值溢出,甚至在某些层里加了Value Embeddings——这玩意儿增加了1.5亿个参数,但几乎不增加计算量(FLOPs)。这哪里是写代码,这简直是在做算力微雕。

成本崩塌,谁在裸泳?

这种成本下降的速度,其实比模型能力的提升更可怕。

AI配图

评论里有位叫MingtaKaivo的网友说得很到位:“每年2.5倍的成本下降率,是目前AI领域最被低估的趋势。”

大家都盯着GPT-5、Claude-4谁更聪明,但Karpathy这波操作直接把底裤给扒了——谁都能玩了。

这让我想起了DeepSeek-V3.2的例子。虽然它在长上下文下疯狂消耗token,但从成本角度看,它的价格仅仅是GPT-5的1/24。这和Karpathy的73美元GPT-2是同一个逻辑:**在超长上下文和持续扩展强化学习之间,巨头们正在寻找一种极致的性价比。**更有意思的是,这种趋势正在击穿“中心化提供商”的护城河。

网友SynthesisLedger一针见血:“这是定制化LLM堆栈的巨大解锁——73美元的训练成本意味着独立开发者现在可以硬化自己的逻辑,不再受制于上游的模型 drift(漂移)。集中式供应商刚刚收到了一张现实检验单。”

说白了,以前你想玩AI,得求着OpenAI、Anthropic给接口;现在,只要你有台好服务器,几百块钱,你就能在自家车库里磨出一把趁手的兵器。## 哪怕是马斯克,也得算账

这种对效率的极致追求,似乎成了硅谷的新共识。

虽然方向不同,但马斯克在X公司的做法也异曲同工。据The Information消息,马斯克把负责打击垃圾邮件和信任安全的工程团队裁了90%——从收购时的100多人,砍到现在的不足10人。

虽然这导致X上的垃圾信息泛滥,被很多人诟病,但从商业逻辑看,这和Karpathy砍掉GPT-2训练成本是同一种思维:**不计成本的“大而全”时代结束了,现在是“精而准”的天下。**只不过,Karpathy是用技术做减法,马斯克是用刀子做减法。

比咖啡还便宜的未来

Karpathy搞了个排行榜,叫“Time to GPT-2”。

现在的第一名是他自己的“Jan29”模型,3.04小时。

他说这很有趣,希望能有更多人一起来迭代。

我觉得这事儿才刚刚开始。

你看评论区的预测:**“按照这个速度,到2030年,训练一个GPT-2级别的模型,可能比一杯咖啡还便宜。”**这不是开玩笑。

当训练一个能听懂人话、能写代码的模型,成本比一杯星巴克拿铁还低时,我们熟知的软件行业、内容创作行业,甚至教育行业,都会被重写。

Karpathy在推文最后说,他希望nanochat能成为一个很好的、干净的实验性LLM工具,为了好玩,也为了学习。

但我看到的,是一个门槛正在消失。

那个曾经被几亿美元算力预算高高筑起的AI神坛,现在正被几十美元的账单,一点点拉回人间。

这到底是技术的平权,还是混乱的开始?

反正,73美元就能入场,你没理由不试一试。

参考链接:
https://x.com/karpathy/status/2017703360393318587