AI军备竞赛背后的裂缝：一场关于钱、可靠性和生存的博弈

封面图

Anthropic刚融了650亿美元，估值逼近万亿。但它的命门，可能被一家中国公司捏在手里。

这不是夸张。

就在Anthropic宣布融资的同一天，DeepSeek把旗下面向企业级任务的V4 Pro模型价格永久锁定在：输入比Claude便宜7倍，输出便宜17倍。

一个准备IPO，疯狂烧钱；一个疯狂降价，血流成河。

这还不是最让人不安的。

当最贵的模型遇到67%的事实分歧

先说个反直觉的数据。

Lenz Research最近干了件挺狠的事：他们找了1000条真实用户提交的事实核查声明，让当前最强的5个大模型各自判断对错。结果是——

67%的情况下，这些模型给不出统一答案。

34%的案例里，两个模型的分歧甚至跨越两个bucket以上。不是"稍微保守一点"的区别，是True和False的差距。

Krippendorff's α系数只有0.639。这个数字意味着什么？意味着你让五个人同时判断同一件事，接近四成的时候会有人睁眼说瞎话。

有意思的是，模型在True/False两极反而容易达成共识，真正的分歧集中在"Mostly True"和"Misleading"这个中间地带。

这就很微妙了。

当AI公司拼命宣传模型能力突破、Agent自主执行、长程推理的时候，一项针对真实用户场景的测试告诉我们：连最基础的事实判断，它们还在打架。

价格战打响了，但护城河真的在Token上吗？

DeepSeek最近的激进操作，让硅谷有点慌。

它不只是降价，而是通过缓存机制的软硬件协同优化，把推理成本压到了一个"破坏性"的水平。在中国市场，DeepSeek的缓存读取价格比西方云厂商便宜87倍。

这个数字什么概念？

小米刚跟进了一个一模一样的定价层级。

这说明什么？说明DeepSeek找到了一套可复制的成本压缩方法论，而且正在以开源的方式向全行业扩散。

与此同时，Anthropic正面临"投资回报率"的密集拷问。它融了650亿美元，估值965亿，年化收入据说接近50亿美元，听起来很美。

但它的成本结构呢？

Claude Opus 4.8刚发布，Fast Mode号称比前代快2.5倍，但Anthropic的定价依然是那个定价。它没有像DeepSeek那样激进地让利给用户。

这是战略选择，还是护城河正在被侵蚀？

老实讲，我觉得两者都有。

DeepSeek V4 Pro在SWE-bench Verified上的得分是80.6%，高级MMLU-Pro推理得分87.5%。这两个指标对标的是Claude Sonnet和GPT-5.5-Med，而DeepSeek的定价是它们的七分之一到十七分之一。

如果你是企业采购，你会怎么选？

Agent能力跃升，但"可靠"依然是奢求

Claude Opus 4.8的核心卖点是Agent能力。

官方说法是：模型判断力更强，能在复杂任务中主动质疑计划、抓住自己的错误、在多服务探索中积累信心再动手。

早期测试者给了一些正面反馈，说它在Claude Code里"问对问题、抓住自己的失误、push back不靠谱的计划"。

听起来很美好。

但我们得承认一个现实：现在的"Agent能力"，大部分时候指的是"在受控环境下的任务完成率"。

一旦涉及到开放世界的真实判断——比如这条新闻是真的还是假的，这个合同条款有没有风险——模型就开始各说各话。

67%的事实分歧不是小样本偏差。这是在真实用户场景下的硬核数据。

它说明什么？

说明当前的大模型在"知道什么是对的"这件事上，远没有它们表现得那么自信。它们擅长生成流畅的文本、完美的代码，但在事实判断这个基础能力上，还在经常"随机应变"。

Anthropic的IPO赌注与DeepSeek的价格陷阱

Anthropic这轮融资的逻辑很清晰：上市前讲一个"规模增长+安全研究"的宏大叙事，拉一波顶级机构站台，然后冲击公开市场。

650亿美元的融资额，965亿的估值，如果能顺利IPO，创始团队和早期投资人都能套现离场。

但问题来了。

公开市场的投资人不会只看收入数字，他们会问：你的护城河到底是什么？

如果DeepSeek们的价格战持续，如果开源模型的能力持续逼近闭源模型，如果企业客户开始用脚投票——

Anthropic的"安全牌"能撑起万亿估值吗？

坦白说，我不太确定。

Claude Opus 4.8确实在进步，Claude Code的企业用户确实在增长，但这些增长的背后，是Anthropic持续烧钱投入算力的结果。当算力成本无法被规模效应摊薄，当竞争对手用十分之一的成本达到九成的能力——

这场游戏的规则就变了。

尾声：裂缝下面是什么？

写到这里，我发现这几条新闻指向一个共同的主题：

AI行业正在经历一场"表面繁荣"与"内在脆弱"并存的奇幻漂流。

一边是融资、估值、IPO、Agent能力、推理效率——听起来全是好消息。

另一边是67%的事实分歧、DeepSeek的价格突袭、Token护城河被一点点凿穿——听起来全是隐患。

有意思的是，这两个叙事都真实存在。

Anthropic确实在变强，它的模型确实能完成更复杂的任务；DeepSeek也确实在用一种破坏性的方式重塑行业的价格体系；LLM的事实分歧也确实揭示了当前AI系统的基础性缺陷。

这三件事并不矛盾。

它们只是从不同角度说明了同一个现实：我们正处在一个AI技术快速进步、但商业逻辑尚未稳固的过渡期。

在这个阶段，有人靠技术领先吃红利，有人靠价格战抢市场，有人靠融资撑估值。谁能活到最后？

可能不是技术最强的那个，而是最能解决"可靠性和成本"这道双选题的那个。

这个问题，现在还没有答案。

【锐评】：Anthropic融了650亿准备IPO，DeepSeek直接用七分之一的价格入场搅局，而67%的事实分歧说明这些"最强大模型"连基本的事实判断都统一不了——这行业，真是又卷又分裂。