如果你的 AI Agent 干活干到一半突然“失忆”,别急着骂模型不行,大概率是存储没跟上。
在 GTC 2026 上,英伟达扔出了一枚深水炸弹:BlueField-4 STX。这不是一块简单的显卡,而是一套直接重构 AI 基础设施的参考架构。官方宣称,这套方案能把 Token 吞吐量提升 5 倍,能效提升 4 倍,数据摄取速度翻倍。
说实话,这数字看着有点吓人。但更吓人的是,英伟达这次把手术刀对准了那个长期被忽视的角落——存储。
被忽视的“记忆瓶颈”
你有没有发现,现在的 AI 越来越聪明,但也越来越“健忘”?
当一个 AI Agent 执行多步任务、调用各种工具时,它需要一种叫 KV Cache(键值缓存) 的东西来维持“工作记忆”。这就像是它的草稿纸,记录了之前算过的东西,免得每次都要从头再来。
问题就出在这儿。
随着上下文窗口越来越大,Agent 步骤越来越多,这张“草稿纸”也变得越来越大。当这些数据不得不绕远路去访问传统存储时,GPU 就只能干等着,利用率直接掉线。
英伟达 Hyperscale 与 HPC 副总裁 Ian Buck 说得很直白:传统数据中心存储容量是大,但反应太慢,根本伺候不了那些需要跨多步、多会话交互的 AI Agent。
简单来说,这就是让法拉利去跑泥巴路,再强的引擎也得趴窝。
在 GPU 和磁盘之间“加塞”
既然路不好走,那就修路。
BlueField-4 STX 的核心逻辑非常粗暴:在 GPU 和传统磁盘之间,硬生生插入一层“上下文内存层”。
这可不是简单的加个硬盘。它基于全新的 BlueField-4 处理器(结合了 Vera CPU 和 ConnectX-9 SuperNIC),配合 Spectrum-X 以太网,专门为了搬运 KV Cache 数据设计的。英伟达管这个平台叫 CMX。
这就好比给那个健忘的 Agent 配了个随身秘书,把常用的草稿纸直接递到手边,不用每次都跑去档案室翻箱倒柜。
有意思的是,英伟达并不打算自己卖这个“盒子”。
STX 是一个参考架构,英伟达把它丢给了存储生态圈的伙伴们。配合硬件的,还有一个叫 DOCA Memo 的软件参考平台。既给菜谱,又给厨具,老黄这算盘打得是真响。
存储大厂的“集体倒戈”
看看这次站台的名单,你就会发现事情不简单。
Dell、HPE、NetApp、IBM、VAST Data…… 几乎你能叫得上名字的存储巨头,全在名单里。甚至连 Cloudian、MinIO 这种新贵也没落下。
另一方面,CoreWeave、Oracle Cloud、Mistral AI 这些云服务和模型厂商也承诺采用 STX。
这信号太明显了:英伟达不是在做一个单一产品,而是在定标准。
它要把 STX 变成未来 AI 存储的“参考答案”。以后谁要是想搞 Agentic AI 的基础设施,如果不按这个路子来,可能连入场券都拿不到。产品预计 2026 年下半年上市,留给传统存储架构的时间,可能真的不多了。
雀巢的“意外”验证
光说不练假把式。IBM 这次不仅作为合作伙伴出现,还顺手甩出了一个实战案例。
虽然不是直接的 Agent 推理,但 IBM 和英伟达合作的 GPU 加速数据分析,在雀巢的生产环境中跑出了让人眼红的数字:
处理一个覆盖 186 个国家、44 张表的“订单到现金”数据集市,数据刷新周期从 15 分钟直接干到了 3 分钟。
成本节省 83%,性价比提升 30 倍。
我个人觉得,这个案例虽然讲的是数据分析,但逻辑是通的:数据层才是现在企业 AI 的阿喀琉斯之踵。 只要你能把数据搬运的速度提上来,不管是在推理环节还是分析环节,效果都是立竿见影的。
存储不再是“配角”
以前大家搞 AI 基础设施,眼光全盯着 GPU,存储?随便买点 NAS 凑合一下得了。
现在不行了。
STX 的发布是一个强烈的信号:存储层正在成为一级决策事项。
那些通用的 NAS 和对象存储,在设计之初压根没想过要伺候这种毫秒级的 KV Cache 访问。英伟达这次就是明摆着告诉所有人:旧瓶装不了新酒,想跑好 Agent,得换新瓶子。
当然,咱们也得保持清醒。英伟达宣称的 5 倍吞吐、4 倍能效,对比的是传统 CPU 存储。具体的基线配置是啥?他们没细说。这数字里有多少水分,还得等下半年产品上市了,让用户自己去测。
不过,看着这一长串顶级厂商的名单,我想没人会愿意在这个赛道上掉队。
以前我们说“内存即服务”,以后会不会变成“上下文即服务”?
【glm-5锐评】:老黄这一刀补得精准,以后 AI 想要“记性好”,存储厂商怕是要先交一笔“过路费”了。
参考链接:
https://venturebeat.com/data/nvidia-bluefield-4-stx-adds-a-context-memory-layer-to-storage-to-close-the