73美元干翻4.3万美元：Karpathy的“暴力美学”，撕开了AI的最后一块遮羞布

73美元。

这不是一顿高档日料的账单，也不是一件潮牌T恤的价格。

AI配图

这是前特斯拉AI总监、OpenAI创始成员Andrej Karpathy，训练出一个GPT-2级别大模型的全部成本。

就在几天前，他在X上扔出了这个核弹级的数据：仅用一张8XH100显卡，跑了3个小时，花费约73美元。

而时间倒回2019年，OpenAI训练初代GPT-2时，用了32个TPU v3芯片，整整跑了一周，烧掉了43,000美元。7年时间，600倍的成本暴跌。

说实话，这比任何关于“AGI何时到来”的预测都要来得震撼。因为这不仅仅是一个技术指标，这是一次权力的让渡。

那个“执念”成真了

Karpathy对GPT-2有种近乎偏执的喜爱。

在他眼里，GPT-2是现代LLM（大语言模型）堆栈第一次以“可识别的现代形式”集结完成的产物。简单说，它是祖师爷。

但这几年，他一直在琢磨一件事：既然技术都在进步，为什么训练一个“祖师爷”级别的模型，还得像当年那样砸钱？他怀疑，这事儿肯定能便宜干。

事实证明，他不仅对了，而且做得有点过分。

他搞了个叫nanochat的项目，目标极其单纯：把训练GPT-2的成本打到地板上。

最新提交的“Jan29”模型，只用了3.04小时，就在单张8XH100节点上跑出了比当年OpenAI更高的CORE分数（一个综合评估指标）。

当年的4.3万美元，现在的73美元。

这中间的差价，足以让任何还在为算力账单发愁的初创公司老板感到一阵眩晕。## “删不掉”的优化器

这事儿最有趣的地方，不在于他用了多贵的硬件，而在于他怎么“压榨”这些硬件。

在GitHub的详细拆解里，Karpathy列出了一堆听起来就很硬核的优化手段。

AI配图

老实讲，有些技术细节看着让人头皮发麻。

比如Flash Attention 3 kernels，这玩意儿不仅快，还允许通过window_size参数玩出“交替注意力模式”的花活；比如滑动窗口注意力，像切香肠一样把上下文切成小块，极大地节省算力。但最让我觉得有“人味儿”的，是关于Muon优化器的故事。

Karpathy在推文里半开玩笑地说，他试着花了一整天时间想把Muon优化器删掉，换回标准的AdamW，结果**“根本删不掉”**。

只要一删，效果就崩。

这就像是一个老司机告诉你，这辆车之所以跑得快，不是因为引擎换了，而是因为那个不起眼的火花塞——你换了它，车就废了。

除此之外，他还搞了一堆骚操作：把激活函数从GELU换成了ReLU²（稀疏且便宜），给logits加了个15 * tanh的软帽子防止数值溢出，甚至在某些层里加了Value Embeddings——这玩意儿增加了1.5亿个参数，但几乎不增加计算量（FLOPs）。这哪里是写代码，这简直是在做算力微雕。

成本崩塌，谁在裸泳？

这种成本下降的速度，其实比模型能力的提升更可怕。

AI配图

评论里有位叫MingtaKaivo的网友说得很到位：“每年2.5倍的成本下降率，是目前AI领域最被低估的趋势。”

大家都盯着GPT-5、Claude-4谁更聪明，但Karpathy这波操作直接把底裤给扒了——谁都能玩了。

这让我想起了DeepSeek-V3.2的例子。虽然它在长上下文下疯狂消耗token，但从成本角度看，它的价格仅仅是GPT-5的1/24。这和Karpathy的73美元GPT-2是同一个逻辑：**在超长上下文和持续扩展强化学习之间，巨头们正在寻找一种极致的性价比。**更有意思的是，这种趋势正在击穿“中心化提供商”的护城河。

网友SynthesisLedger一针见血：“这是定制化LLM堆栈的巨大解锁——73美元的训练成本意味着独立开发者现在可以硬化自己的逻辑，不再受制于上游的模型 drift（漂移）。集中式供应商刚刚收到了一张现实检验单。”

说白了，以前你想玩AI，得求着OpenAI、Anthropic给接口；现在，只要你有台好服务器，几百块钱，你就能在自家车库里磨出一把趁手的兵器。## 哪怕是马斯克，也得算账

这种对效率的极致追求，似乎成了硅谷的新共识。

虽然方向不同，但马斯克在X公司的做法也异曲同工。据The Information消息，马斯克把负责打击垃圾邮件和信任安全的工程团队裁了90%——从收购时的100多人，砍到现在的不足10人。

虽然这导致X上的垃圾信息泛滥，被很多人诟病，但从商业逻辑看，这和Karpathy砍掉GPT-2训练成本是同一种思维：**不计成本的“大而全”时代结束了，现在是“精而准”的天下。**只不过，Karpathy是用技术做减法，马斯克是用刀子做减法。

比咖啡还便宜的未来

Karpathy搞了个排行榜，叫“Time to GPT-2”。

现在的第一名是他自己的“Jan29”模型，3.04小时。

他说这很有趣，希望能有更多人一起来迭代。

我觉得这事儿才刚刚开始。

你看评论区的预测：**“按照这个速度，到2030年，训练一个GPT-2级别的模型，可能比一杯咖啡还便宜。”**这不是开玩笑。

当训练一个能听懂人话、能写代码的模型，成本比一杯星巴克拿铁还低时，我们熟知的软件行业、内容创作行业，甚至教育行业，都会被重写。

Karpathy在推文最后说，他希望nanochat能成为一个很好的、干净的实验性LLM工具，为了好玩，也为了学习。

但我看到的，是一个门槛正在消失。

那个曾经被几亿美元算力预算高高筑起的AI神坛，现在正被几十美元的账单，一点点拉回人间。

这到底是技术的平权，还是混乱的开始？

反正，73美元就能入场，你没理由不试一试。

参考链接：
https://x.com/karpathy/status/2017703360393318587