Anthropic刚融了650亿美元,估值逼近万亿。但它的命门,可能被一家中国公司捏在手里。
这不是夸张。
就在Anthropic宣布融资的同一天,DeepSeek把旗下面向企业级任务的V4 Pro模型价格永久锁定在:输入比Claude便宜7倍,输出便宜17倍。
一个准备IPO,疯狂烧钱;一个疯狂降价,血流成河。
这还不是最让人不安的。
当最贵的模型遇到67%的事实分歧
先说个反直觉的数据。
Lenz Research最近干了件挺狠的事:他们找了1000条真实用户提交的事实核查声明,让当前最强的5个大模型各自判断对错。结果是——
67%的情况下,这些模型给不出统一答案。
34%的案例里,两个模型的分歧甚至跨越两个bucket以上。不是"稍微保守一点"的区别,是True和False的差距。
Krippendorff's α系数只有0.639。这个数字意味着什么?意味着你让五个人同时判断同一件事,接近四成的时候会有人睁眼说瞎话。
有意思的是,模型在True/False两极反而容易达成共识,真正的分歧集中在"Mostly True"和"Misleading"这个中间地带。
这就很微妙了。
当AI公司拼命宣传模型能力突破、Agent自主执行、长程推理的时候,一项针对真实用户场景的测试告诉我们:连最基础的事实判断,它们还在打架。
价格战打响了,但护城河真的在Token上吗?
DeepSeek最近的激进操作,让硅谷有点慌。
它不只是降价,而是通过缓存机制的软硬件协同优化,把推理成本压到了一个"破坏性"的水平。在中国市场,DeepSeek的缓存读取价格比西方云厂商便宜87倍。
这个数字什么概念?
小米刚跟进了一个一模一样的定价层级。
这说明什么?说明DeepSeek找到了一套可复制的成本压缩方法论,而且正在以开源的方式向全行业扩散。
与此同时,Anthropic正面临"投资回报率"的密集拷问。它融了650亿美元,估值965亿,年化收入据说接近50亿美元,听起来很美。
但它的成本结构呢?
Claude Opus 4.8刚发布,Fast Mode号称比前代快2.5倍,但Anthropic的定价依然是那个定价。它没有像DeepSeek那样激进地让利给用户。
这是战略选择,还是护城河正在被侵蚀?
老实讲,我觉得两者都有。
DeepSeek V4 Pro在SWE-bench Verified上的得分是80.6%,高级MMLU-Pro推理得分87.5%。这两个指标对标的是Claude Sonnet和GPT-5.5-Med,而DeepSeek的定价是它们的七分之一到十七分之一。
如果你是企业采购,你会怎么选?
Agent能力跃升,但"可靠"依然是奢求
Claude Opus 4.8的核心卖点是Agent能力。
官方说法是:模型判断力更强,能在复杂任务中主动质疑计划、抓住自己的错误、在多服务探索中积累信心再动手。
早期测试者给了一些正面反馈,说它在Claude Code里"问对问题、抓住自己的失误、push back不靠谱的计划"。
听起来很美好。
但我们得承认一个现实:现在的"Agent能力",大部分时候指的是"在受控环境下的任务完成率"。
一旦涉及到开放世界的真实判断——比如这条新闻是真的还是假的,这个合同条款有没有风险——模型就开始各说各话。
67%的事实分歧不是小样本偏差。这是在真实用户场景下的硬核数据。
它说明什么?
说明当前的大模型在"知道什么是对的"这件事上,远没有它们表现得那么自信。它们擅长生成流畅的文本、完美的代码,但在事实判断这个基础能力上,还在经常"随机应变"。
Anthropic的IPO赌注与DeepSeek的价格陷阱
Anthropic这轮融资的逻辑很清晰:上市前讲一个"规模增长+安全研究"的宏大叙事,拉一波顶级机构站台,然后冲击公开市场。
650亿美元的融资额,965亿的估值,如果能顺利IPO,创始团队和早期投资人都能套现离场。
但问题来了。
公开市场的投资人不会只看收入数字,他们会问:你的护城河到底是什么?
如果DeepSeek们的价格战持续,如果开源模型的能力持续逼近闭源模型,如果企业客户开始用脚投票——
Anthropic的"安全牌"能撑起万亿估值吗?
坦白说,我不太确定。
Claude Opus 4.8确实在进步,Claude Code的企业用户确实在增长,但这些增长的背后,是Anthropic持续烧钱投入算力的结果。当算力成本无法被规模效应摊薄,当竞争对手用十分之一的成本达到九成的能力——
这场游戏的规则就变了。
尾声:裂缝下面是什么?
写到这里,我发现这几条新闻指向一个共同的主题:
AI行业正在经历一场"表面繁荣"与"内在脆弱"并存的奇幻漂流。
一边是融资、估值、IPO、Agent能力、推理效率——听起来全是好消息。
另一边是67%的事实分歧、DeepSeek的价格突袭、Token护城河被一点点凿穿——听起来全是隐患。
有意思的是,这两个叙事都真实存在。
Anthropic确实在变强,它的模型确实能完成更复杂的任务;DeepSeek也确实在用一种破坏性的方式重塑行业的价格体系;LLM的事实分歧也确实揭示了当前AI系统的基础性缺陷。
这三件事并不矛盾。
它们只是从不同角度说明了同一个现实:我们正处在一个AI技术快速进步、但商业逻辑尚未稳固的过渡期。
在这个阶段,有人靠技术领先吃红利,有人靠价格战抢市场,有人靠融资撑估值。谁能活到最后?
可能不是技术最强的那个,而是最能解决"可靠性和成本"这道双选题的那个。
这个问题,现在还没有答案。
【锐评】:Anthropic融了650亿准备IPO,DeepSeek直接用七分之一的价格入场搅局,而67%的事实分歧说明这些"最强大模型"连基本的事实判断都统一不了——这行业,真是又卷又分裂。