当AI走出实验室：一场地基未完工的“基建狂潮”

封面图

作者按： 最近看到几条新闻放在一起挺有意思：vLLM团队修了一个让投机解码崩溃的bug、挪威建了个主权大模型、Anthropic联创跑去梵蒂冈聊AI对齐、有人抱怨coding agent让他血压飙升、还有一个研究说95%的企业AI项目根本活不到上线。

表面看，这是五件风马牛不相及的事。但你仔细品品，它们其实在说同一句话——

AI正在从“技术玩具”变成“社会基础设施”，但我们手里的工具链、企业流程、甚至治理框架，都还没准备好这个转变。

01 技术突破的另一面：稳定性才是真正的瓶颈

先说个技术圈的事。

vLLM团队最近发布了EAGLE 3.1，解决了投机解码里的一个老大难问题——注意力漂移（attention drift）。

说人话就是：大模型在做“猜测下一个词”的时候，猜得越深，越容易跑偏。因为drafter模型在多步生成后，它的注意力会从真正重要的token漂移到它自己生成的tokens上，最后整个推测链条崩塌。

这不是小问题。投机解码是这两年LLM推理加速最火的方案之一，理论上能让生成速度快2-4倍。但一到真实场景就拉胯——换个人家的chat模板、输入超长上下文、或者系统prompt稍微偏一点，性能就雪崩。

vLLM的解决思路挺聪明的：给每一层hidden state做FC归一化，再加上Post-norm设计，让drafter的行为更稳定。

但重点不在这里。

重点是：从EAGLE 1到3.1，整个迭代过程暴露了一个真相——AI在实验室跑通，和在生产环境稳定运行，根本是两码事。

你可能在Paper里看到过SOTA的数字，但那是在标准Benchmark上。在真实的、混乱的、充满edge case的生产环境里，这些模型的脆弱程度远超想象。

EAGLE 3.1不是第一个因为“不够稳”而被缝缝补补的方案，也不会是最后一个。

02 Agent让人抓狂的真正原因：拟人化是个陷阱

说完技术侧的问题，再说一个更接地气的。

有个开发者写了篇文章吐槽coding agent，他说他自己平时是个温和的人，但最近经常对着AI工具吼“WHAT THE FUCK DID YOU DO???”

然后他开始反思：我为什么会对一个算法生气？

他的答案很有意思：不是AI太蠢，而是AI太像人了。

Coding agent说话的方式、语气、甚至道歉的方式，都在模仿真实同事。它会说“这里我有个小建议”、“抱歉让你遇到这个情况”、“我们一起看看这个问题”。这种拟人化设计本来是为了降低使用门槛，但副作用是——它调高了用户的预期。

你不会对一个自动补全插件生气，因为你知道它就是机械地匹配文本。但你很容易对一个“态度友好、偶尔犯错、犯错后还会道歉”的agent感到沮丧，因为它触发了你和真人交互时的情绪模式，却没能兑现真人同事那样的学习和适应能力。

“它们的行为足够像helpful colleagues，从而触发了我们的社会本能；但它们既不学习、也不适应、更不承担责任——这让它们的重复错误显得比实际更令人沮丧。”

这个观察很犀利。

它揭示了当前AI工具的一个设计悖论：我们为了让AI更容易上手，把它做得很像人；但正是这种拟人化，让用户对AI的容忍度反而降低了。

这是整个行业都没解决好的问题。

03 企业AI为什么死得那么难看？三个债压垮一切

如果上面的问题还算“小打小闹”，那企业级AI的困境就真的是系统性的了。

最近有个研究引用了一组数据：MIT 2025年的调查发现95%的AI项目无法交付生产环境或产生价值；S&P Global的调研则显示42%的企业在2025年直接砍掉了多个AI项目——这个数字相比前一年的17%翻了一倍多。

为什么会这样？

有篇文章提出了一个概念框架挺有意思——AI技术债（AI Technical Debt）。它不是传统意义上的“代码写烂了、技术栈老旧”，而是一种新型的、更隐蔽的债务。

具体分三类：

提示词债：Prompt不是写一次就完事的，它是活的——模型版本更新、数据分布变化、用户行为偏移，都会让原本work的prompt逐渐失效。但大多数企业没有机制去持续监控和迭代prompt，导致系统慢慢变差。

检索债：RAG火了一年，但现实是很多企业的embedding模型、向量数据库、检索策略都是拍脑袋选的，没有建立 ground truth 评估体系。结果就是检索结果看着还行，但真实query一上来就拉胯。

评估债：最难搞的一块。传统软件有unit test，AI系统怎么测？你很难定义ground truth，更难建立持续评估的pipeline。没有评估就没有迭代，企业对模型能力的认知永远停留在“刚上线那天还不错”的幻觉里。

文章的核心观点是：传统技术债是localized的，bug在哪很清楚，可以复现、可以修。但AI技术债是distributed、probabilistic、intermittent的——它分散在prompt、模型、数据pipeline里，它的行为不确定，它的问题不是每次都出现。

这意味着：你没法用传统软件工程的方式去管理AI系统。

95%的失败率，听着夸张，但如果你理解了这个逻辑，其实挺合理的。

04 挪威在做的事：主权AI不只是噱头

说完企业内部的问题，再往上看一层。

挪威国家图书馆最近在做一个项目：训练一个挪威海语言的大模型。

这个项目的细节挺有意思：

数据来源是国家图书馆的法定存档——包括所有挪威出版的书籍、报纸、网页。这个legal deposit的覆盖范围，比任何商业公司都广。跟挪威各大报纸的版权协议，也是图书馆谈下来的——商业公司根本拿不到这些数据。
存储架构用了华为OceanStor Dorado，总共2PB；算力是HPE Cray，448张GPU。

项目负责人的说法很直接：**任何没有自己语言LLM的国家，都是吃亏的。**因为全球化训练的英文LLM，它不理解这个国家的历史、新闻、文化——这些内容只存在于本地语言的数据里。

有意思的是，这个项目引出了一个技术讨论：448张GPU，够不够从头训练一个基座模型？

答案是：勉强，但效率很低。大多数人认为这种规模的算力，更适合做LoRA微调或继续预训练，而不是从零训基座。但挪威的选择是基座训练，因为他们的核心诉求是数据主权和语言完整性——这些没法通过微调实现。

这件事的启示是：主权AI不仅仅是地缘政治叙事，它有真实的工程逻辑。当你的语言数据足够独特、你的文化资产足够丰富，商业模型就无法覆盖你的需求。你必须自己建。

05 一场在梵蒂冈的对齐讨论：商业激励与公共利益的裂缝

最后说说Chris Olah的事。

他是Anthropic的联创，前几天被邀请去梵蒂冈，在教皇发布AI通谕的活动上发言。

他的演讲内容很坦诚，甚至有点“自我拆台”的味道：

“每个前沿AI实验室，包括Anthropic，都存在于一套激励和约束机制里——这些机制有时会与做正确的事产生冲突。保持商业可行性、保持在研究前沿的压力、地缘政治压力、以及更原始的骄傲和野心。无论我们多真诚地想做好事，我们总会受到这些激励的影响。”

然后他说了一句很关键的话：

“这就是为什么，如果想让这项技术发展好，在那些激励之外，必须有人持续关注、说难听的话、成为真诚的批评者。通过对话和共同努力，通过推拉，人类才能实现伟大的事情。”

翻译一下：商业公司靠不住，你们得有人盯着我们。

这个表态有意思的地方在于：它不是空洞的“AI向善”口号，而是一种对激励机制局限性的清醒认知。

Chris Olah还讨论了AI对全球劳动力市场的冲击、开源vs闭源的选择、以及普惠性的问题。他的基本立场是：开源有其风险，但闭源也不是答案——真正的解法，是多方博弈下的渐进式对齐。

这场演讲发生在梵蒂冈，也许不是巧合。教皇的通谕叫"Magnifica Humanitas"（崇高的人性）——这个名字本身就暗示了一种姿态：AI的问题，不只是技术问题，它是关于“何为人类”的哲学问题。

结语

回到开头那个问题：为什么这五件看似不相关的事，其实说的是同一句话？

因为它们都在揭示同一个断层：

AI的技术进步已经进入一个新阶段，但配套的工程方法、用户心智、企业流程、甚至治理框架，都还停留在上一个阶段。

vLLM修的是技术侧的稳定性；coding agent的设计悖论揭示的是交互范式的错位；95%的企业AI失败率暴露的是工程方法论的缺失；挪威的主权AI实践代表的是数据主权的觉醒；Chris Olah的坦诚则是对商业激励缺陷的一次公开承认。

这些问题的解法，不会来自某一篇论文或某一个产品。

它需要整个行业——研究者、工程师、产品经理、政策制定者——共同完成一次认知升级。

AI的“上半场”结束了，那是个Demo满天飞、PPT统治世界的时代。

“下半场”才刚刚开始，比的是谁能把实验室的东西，真正变成可以托付身家的基础设施。

【锐评】：说白了，AI行业现在最大的矛盾是——科学家们在造火箭，投资者们在数火箭，但没人真正学会怎么把火箭落地还能飞。这95%的失败率不是意外，是这个阶段必然的学费。

01 技术突破的另一面：稳定性才是真正的瓶颈

02 Agent让人抓狂的真正原因：拟人化是个陷阱

03 企业AI为什么死得那么难看？三个债压垮一切

04 挪威在做的事：主权AI不只是噱头

05 一场在梵蒂冈的对齐讨论：商业激励与公共利益的裂缝

结语

参考来源