封面图

你可能不知道,你口袋里的廉价智能手机正在经历一场静悄悄的涨价。

IDC的数据摆在那儿:2026年,智能手机的平均售价在往上走。不是因为某个品牌又发了旗舰款,而是因为内存不够用了

一个名为HBM的东西,正在成为AI时代的"石油"。英伟达的GPU需要它,训练大模型需要它,而它的产能就那么多。需求端越疯狂,供给端就越紧绷——然后你发现,那个70美元就能买到的 Tecno Spark Go,可能很快要涨到90美元了。

这不是一篇讲供需关系的宏观经济文章。这是关于AI狂飙突进背后,那些被忽视的隐性代价的故事。

我们从几个看似不相关的新闻说起。


消费级硬件的"文艺复兴"

先看一个让人兴奋的消息:有人在五年前的 M1 Max MacBook Pro上跑通了 Gemma 4-31B,把一整年的视频素材做了本地索引。

用的方法很硬核——50GB Swap,说白了就是把SSD当内存使。开源工具链 framdex 完整放出,评论区讨论热烈:4-bit量化怎么省显存、SSD磨损风险、上下文窗口怎么优化……

这种玩法五年前想都不敢想。现在,一台过气的专业笔记本,能塞进31B参数的视觉模型,还能跑完一年的视频分析。

类似的趋势其实在持续发生:模型量化技术越来越成熟,端侧部署工具链越来越完善,连ollama这种傻瓜化工具都在不断降低门槛。

一个结论很自然:AI正在走向普惠。

然后你转头去看另一条新闻,发现这个结论可能只是局部真相。


内存去哪了?

那篇博客讲得很清楚:1985年一台 IBM PC AT 卖6000美元,折合现在快两万美元。今天你走进拉各斯或内罗毕的集市,花50到120美元就能买一台 Tecno 智能手机——算力是那台IBM的数千倍,价格不到百分之一。

过去四十年,消费电子的"大廉价"是整个科技行业最了不起的成就之一。智能手机把互联网带给了全球数十亿低收入人群。

但这个故事正在收尾。

原因是什么?AI。

大模型训练需要海量HBM(高带宽内存),而HBM的产能就那么点。三星、美光、SK海力士都在拼命扩产,但需求增速远超供给。于是出现了这样的连锁反应:

  • HBM产线满载 → DDR/LPDDR(手机用的内存)产线被挤占 → 消费电子内存涨价 → 廉价智能手机越来越难做

这不是某个供应链管理失误的问题,而是结构性矛盾当全世界最强大的AI实验室都在抢同一种内存的时候,其他一切都要让步。

有个评论说得好:"AI的尽头是电力,电力之前是内存。"


AI Agent的两难

这种矛盾在另一个战场也在上演。

Qwen3.7-Max 出来了——阿里最新的闭源模型,支持35小时自主运行。这个数字很炸裂:意味着模型可以像 Claude Code 那样,让Agent跑上一整天、两天,中途不用重启、不用喂上下文。

对比一下:现在很多主流模型在长时间Agent任务上的表现其实很挣扎,原因在于"记忆"问题——上下文窗口不够用,RAG检索效率低,历史信息无法有效复用。

所以当加州某团队提出 delta-mem 方案时,技术圈反应热烈:只增加0.12%的参数量,就能让模型动态压缩历史信息,效果还优于那些动辄增加70%以上参数量的"替代方案"。

这个思路本质上是在解决一个核心矛盾:模型要知道多少过去的事?

  • 上下文窗口无限扩张?成本爆炸。
  • RAG检索?延迟高,对话不连贯。
  • Delta-mem?轻量,但本质上是"选择性遗忘"。

你发现了吗?这些方案都在试图用算法对抗资源约束。内存不够,算法来凑。上下文太贵,压缩来解。

这不是一个技术问题,这是一个物理问题


企业数据也在被重新"格式化"

说个更少有人关注的新闻:邓白氏(Dun & Bradstreet)刚刚重构了他们的商业数据库。

邓白氏有6.42亿企业记录,11,000个字段每条记录,每月运行约1000亿次数据质量检查。这套系统服务了全球近20万客户,用了快两百年。

但当客户开始把AI Agent塞进信贷、供应链、采购的工作流之后,这套系统崩了。

不是数据库崩溃,而是架构崩塌。原本为人类分析师设计的查询模式——可以等几秒钟,可以处理模糊的实体匹配,可以用人工经验补位——根本扛不住Agent的机器节奏:高并发、低延迟、精确匹配、快速迭代。

邓白氏的CDO说了句很直接的话:"我们必须把Agent视为新的消费群体,就像当年从信贷分析师转向销售团队一样。"

这套说辞听起来很企业,但内核很清晰:基础设施正在被AI的工作模式重新塑造。


所以,AI到底在普惠谁?

把几条线串一下,得出一个让人有点不安的结论:

AI确实在让更多人用上强大的模型——但这种"普惠"是有条件的。

条件是:你用的是消费级算力,你接受本地部署的延迟和量化损失,你用压缩算法对抗内存瓶颈。

另一边,真正推动AI边界的工作——训练万亿参数模型、支撑企业级Agent工作流、让模型跑满35小时不间断——正在以惊人的速度消耗稀缺资源:HBM、算力、基础设施重构成本。

于是我们看到一种奇怪的分化:

  • 下游模型越来越小、越来越高效,端侧部署越来越容易。这头很热闹,很"民主化"。
  • 上游资源消耗越来越高,产能越来越紧张,基础设施越来越贵。这头很沉默,但决定了整个生态的天花板。

你以为你在用AI,其实你在用别人"省下来"的算力。

你以为AI在普惠,其实AI在重新分配稀缺性


一个坏消息和一个好消息

坏消息是:这种结构性矛盾短期内不会缓解。HBM扩产需要时间,企业系统重构需要时间,算法优化永远跑在硬件前面但永远追不上需求。

好消息是:每一代技术瓶颈被解决之后,资源消耗会被重新拉到一个可接受的区间。当DDR2被DDR5取代,当HBM3e成为标配,当delta-mem这样的轻量方案成熟,局面会重新平衡。

但在那之前,你手里的廉价智能手机会贵一点,你在本地跑大模型的体验会慢一点,你用企业AI Agent的时候会发现它在"健忘"。

这不是AI的失败,这是AI在穿越自己的青春期


【锐评】:别被"AI普惠"的叙事骗了,真正的普惠从来不是让更多人用上模型,而是让更多人用上模型的同时不用忍受别人挑剩的资源。眼下这场算力争夺战,普通人还只是观众。


参考来源: