作者按: 最近看到几条新闻放在一起挺有意思:vLLM团队修了一个让投机解码崩溃的bug、挪威建了个主权大模型、Anthropic联创跑去梵蒂冈聊AI对齐、有人抱怨coding agent让他血压飙升、还有一个研究说95%的企业AI项目根本活不到上线。
表面看,这是五件风马牛不相及的事。但你仔细品品,它们其实在说同一句话——
AI正在从“技术玩具”变成“社会基础设施”,但我们手里的工具链、企业流程、甚至治理框架,都还没准备好这个转变。
01 技术突破的另一面:稳定性才是真正的瓶颈
先说个技术圈的事。
vLLM团队最近发布了EAGLE 3.1,解决了投机解码里的一个老大难问题——注意力漂移(attention drift)。
说人话就是:大模型在做“猜测下一个词”的时候,猜得越深,越容易跑偏。因为drafter模型在多步生成后,它的注意力会从真正重要的token漂移到它自己生成的tokens上,最后整个推测链条崩塌。
这不是小问题。投机解码是这两年LLM推理加速最火的方案之一,理论上能让生成速度快2-4倍。但一到真实场景就拉胯——换个人家的chat模板、输入超长上下文、或者系统prompt稍微偏一点,性能就雪崩。
vLLM的解决思路挺聪明的:给每一层hidden state做FC归一化,再加上Post-norm设计,让drafter的行为更稳定。
但重点不在这里。
重点是:从EAGLE 1到3.1,整个迭代过程暴露了一个真相——AI在实验室跑通,和在生产环境稳定运行,根本是两码事。
你可能在Paper里看到过SOTA的数字,但那是在标准Benchmark上。在真实的、混乱的、充满edge case的生产环境里,这些模型的脆弱程度远超想象。
EAGLE 3.1不是第一个因为“不够稳”而被缝缝补补的方案,也不会是最后一个。
02 Agent让人抓狂的真正原因:拟人化是个陷阱
说完技术侧的问题,再说一个更接地气的。
有个开发者写了篇文章吐槽coding agent,他说他自己平时是个温和的人,但最近经常对着AI工具吼“WHAT THE FUCK DID YOU DO???”
然后他开始反思:我为什么会对一个算法生气?
他的答案很有意思:不是AI太蠢,而是AI太像人了。
Coding agent说话的方式、语气、甚至道歉的方式,都在模仿真实同事。它会说“这里我有个小建议”、“抱歉让你遇到这个情况”、“我们一起看看这个问题”。这种拟人化设计本来是为了降低使用门槛,但副作用是——它调高了用户的预期。
你不会对一个自动补全插件生气,因为你知道它就是机械地匹配文本。但你很容易对一个“态度友好、偶尔犯错、犯错后还会道歉”的agent感到沮丧,因为它触发了你和真人交互时的情绪模式,却没能兑现真人同事那样的学习和适应能力。
“它们的行为足够像helpful colleagues,从而触发了我们的社会本能;但它们既不学习、也不适应、更不承担责任——这让它们的重复错误显得比实际更令人沮丧。”
这个观察很犀利。
它揭示了当前AI工具的一个设计悖论:我们为了让AI更容易上手,把它做得很像人;但正是这种拟人化,让用户对AI的容忍度反而降低了。
这是整个行业都没解决好的问题。
03 企业AI为什么死得那么难看?三个债压垮一切
如果上面的问题还算“小打小闹”,那企业级AI的困境就真的是系统性的了。
最近有个研究引用了一组数据:MIT 2025年的调查发现95%的AI项目无法交付生产环境或产生价值;S&P Global的调研则显示42%的企业在2025年直接砍掉了多个AI项目——这个数字相比前一年的17%翻了一倍多。
为什么会这样?
有篇文章提出了一个概念框架挺有意思——AI技术债(AI Technical Debt)。它不是传统意义上的“代码写烂了、技术栈老旧”,而是一种新型的、更隐蔽的债务。
具体分三类:
提示词债:Prompt不是写一次就完事的,它是活的——模型版本更新、数据分布变化、用户行为偏移,都会让原本work的prompt逐渐失效。但大多数企业没有机制去持续监控和迭代prompt,导致系统慢慢变差。
检索债:RAG火了一年,但现实是很多企业的embedding模型、向量数据库、检索策略都是拍脑袋选的,没有建立 ground truth 评估体系。结果就是检索结果看着还行,但真实query一上来就拉胯。
评估债:最难搞的一块。传统软件有unit test,AI系统怎么测?你很难定义ground truth,更难建立持续评估的pipeline。没有评估就没有迭代,企业对模型能力的认知永远停留在“刚上线那天还不错”的幻觉里。
文章的核心观点是:传统技术债是localized的,bug在哪很清楚,可以复现、可以修。但AI技术债是distributed、probabilistic、intermittent的——它分散在prompt、模型、数据pipeline里,它的行为不确定,它的问题不是每次都出现。
这意味着:你没法用传统软件工程的方式去管理AI系统。
95%的失败率,听着夸张,但如果你理解了这个逻辑,其实挺合理的。
04 挪威在做的事:主权AI不只是噱头
说完企业内部的问题,再往上看一层。
挪威国家图书馆最近在做一个项目:训练一个挪威海语言的大模型。
这个项目的细节挺有意思:
- 数据来源是国家图书馆的法定存档——包括所有挪威出版的书籍、报纸、网页。这个legal deposit的覆盖范围,比任何商业公司都广。跟挪威各大报纸的版权协议,也是图书馆谈下来的——商业公司根本拿不到这些数据。
- 存储架构用了华为OceanStor Dorado,总共2PB;算力是HPE Cray,448张GPU。
项目负责人的说法很直接:**任何没有自己语言LLM的国家,都是吃亏的。**因为全球化训练的英文LLM,它不理解这个国家的历史、新闻、文化——这些内容只存在于本地语言的数据里。
有意思的是,这个项目引出了一个技术讨论:448张GPU,够不够从头训练一个基座模型?
答案是:勉强,但效率很低。大多数人认为这种规模的算力,更适合做LoRA微调或继续预训练,而不是从零训基座。但挪威的选择是基座训练,因为他们的核心诉求是数据主权和语言完整性——这些没法通过微调实现。
这件事的启示是:主权AI不仅仅是地缘政治叙事,它有真实的工程逻辑。当你的语言数据足够独特、你的文化资产足够丰富,商业模型就无法覆盖你的需求。你必须自己建。
05 一场在梵蒂冈的对齐讨论:商业激励与公共利益的裂缝
最后说说Chris Olah的事。
他是Anthropic的联创,前几天被邀请去梵蒂冈,在教皇发布AI通谕的活动上发言。
他的演讲内容很坦诚,甚至有点“自我拆台”的味道:
“每个前沿AI实验室,包括Anthropic,都存在于一套激励和约束机制里——这些机制有时会与做正确的事产生冲突。保持商业可行性、保持在研究前沿的压力、地缘政治压力、以及更原始的骄傲和野心。无论我们多真诚地想做好事,我们总会受到这些激励的影响。”
然后他说了一句很关键的话:
“这就是为什么,如果想让这项技术发展好,在那些激励之外,必须有人持续关注、说难听的话、成为真诚的批评者。通过对话和共同努力,通过推拉,人类才能实现伟大的事情。”
翻译一下:商业公司靠不住,你们得有人盯着我们。
这个表态有意思的地方在于:它不是空洞的“AI向善”口号,而是一种对激励机制局限性的清醒认知。
Chris Olah还讨论了AI对全球劳动力市场的冲击、开源vs闭源的选择、以及普惠性的问题。他的基本立场是:开源有其风险,但闭源也不是答案——真正的解法,是多方博弈下的渐进式对齐。
这场演讲发生在梵蒂冈,也许不是巧合。教皇的通谕叫"Magnifica Humanitas"(崇高的人性)——这个名字本身就暗示了一种姿态:AI的问题,不只是技术问题,它是关于“何为人类”的哲学问题。
结语
回到开头那个问题:为什么这五件看似不相关的事,其实说的是同一句话?
因为它们都在揭示同一个断层:
AI的技术进步已经进入一个新阶段,但配套的工程方法、用户心智、企业流程、甚至治理框架,都还停留在上一个阶段。
vLLM修的是技术侧的稳定性;coding agent的设计悖论揭示的是交互范式的错位;95%的企业AI失败率暴露的是工程方法论的缺失;挪威的主权AI实践代表的是数据主权的觉醒;Chris Olah的坦诚则是对商业激励缺陷的一次公开承认。
这些问题的解法,不会来自某一篇论文或某一个产品。
它需要整个行业——研究者、工程师、产品经理、政策制定者——共同完成一次认知升级。
AI的“上半场”结束了,那是个Demo满天飞、PPT统治世界的时代。
“下半场”才刚刚开始,比的是谁能把实验室的东西,真正变成可以托付身家的基础设施。
【锐评】:说白了,AI行业现在最大的矛盾是——科学家们在造火箭,投资者们在数火箭,但没人真正学会怎么把火箭落地还能飞。这95%的失败率不是意外,是这个阶段必然的学费。
参考来源
- EAGLE 3.1: Collaboration Between the EAGLE Team, vLLM Team, and TorchSpec Team
- The User Is Visibly Frustrated
- Why prompt debt, retrieval debt, and evaluation debt are quietly reshaping enterprise AI risk
- Norway's 2 petabytes of Huawei flash storage and LLM training
- Anthropic Cofounder Chris Olah's Remarks on Pope Leo XIV's "Magnifica Humanitas"