你买的Kimi,可能根本不是Kimi

20%到30%的工具调用会凭空消失。

不是模型变笨了,是有人在中间动了手脚。这是AWS Bedrock上真实发生的事——当你以为自己在调用Kimi K2.5时,每五次就有一次,对话会毫无征兆地中断,没有报错,没有输出,只有一片死寂。

月之暗面(Moonshot AI)终于坐不住了。

随着K2.6模型发布,他们甩出一个叫Kimi Vendor Verifier(KVV)的开源项目。这不像是一个新功能发布,更像是一份宣战书:开源权重只是上半场,下半场是防止全世界把模型"玩坏"

当开源变成"开盲盒"

说实话,开源社区最近有点乱。

Kimi把K2 Thinking的权重一公开,理论上任何人都能部署。但麻烦接踵而至。社区反馈像雪片一样飞来:为什么同样的基准测试,我的分数比你官方低一截?

调查发现,一堆人在瞎改Decoding参数。Temperature不是1.0,TopP不是0.95, thinking内容传丢了也没人管。这就像给赛车加了柴油,然后抱怨引擎不给力。

但更诡异的还在后面。

月之暗面在LiveBenchmark上跑了一圈,第三方API和官方API的结果,差得像是两个物种。这不是个别现象。测了一圈基础设施提供商,发现这是行业通病。

模型越开放,质量越失控。 这是一个残酷的悖论。

15小时的"酷刑测试"

KVV不是简单的跑分工具,它是给推理提供商准备的"六重地狱"。

想要通过验证?先过这六关:

Pre-Verification先查基本功——你的Temperature和TopP设置对了吗?OCRBench五分钟速通多模态pipeline,MMMU Pro专门折磨视觉预处理,AIME2025是长输出压力测试,专门抓KV缓存bug和量化 degradation。

还有更狠的。K2VV ToolCall测工具调用的一致性,SWE-Bench直接上全量agentic编码测试(虽然这个没开源,依赖沙盒)。

整套流程跑下来,两台NVIDIA H20 8卡服务器,要连续烧15个小时

这成本不低。但月之暗面觉得值——与其让用户在暗处踩坑,不如把坑摆在阳光下。

那些藏在暗处的"李鬼"

有意思的是,KVV暴露的问题,可能只是冰山一角。

有开发者一针见血:这只能防 accidental issues,防不了 malicious actors。想象一下,某个 sketchy provider 告诉你他们在跑最新版K2.6,实际上背地里偷换成更便宜的量化版本,甚至直接换了个小模型,把差价揣进兜里。

AI配图

你拿着KVV去测,对方完全可以在检测时"演戏",就像当年大众的排放检测作弊。

这种担忧并非空穴来风。OpenRouter上的提供商就被点名:有些根本不标明量化级别,或者实际用的比你想象的低。你以为是FP16的精准度,拿到手的可能是INT4的压缩包。

而AWS Bedrock那种20%-30%工具调用静默失败的 crippling defects,更是把"工程实现偏差"演绎到了极致。这不是模型能力问题,这是基础设施在"吃"你的请求。

信任需要重写代码

月之暗面在博客里说了一句话,Weights are open. The knowledge to run them correctly must be too.

翻译过来就是:代码可以开源,但正确的运行方式不能靠猜

他们开始 upstream fix,直接嵌入vLLM、SGLang、KTransformers社区修根因;搞Pre-Release Validation,让厂商在上线前先自证清白;还要搞Continuous Benchmarking,公开放榜处刑。

AI配图

这招挺狠。相当于给整个行业装了一个公共摄像头

Anthropic之前也限制了采样参数调整,现在Moonshot跟进。开源模型的游戏规则正在改变——从"给你钥匙"变成"教你开门"

但问题是,15小时的测试门槛,普通用户谁跑得起?这更像是给云厂商准备的"紧箍咒"。

AI配图

当模型能力差距越来越小,推理质量的确定性反而成了稀缺品。KVV的出现,或许意味着开源生态从野蛮生长,进入了"强监管"时代。

只是不知道,那些已经在偷偷降配的服务商,现在慌不慌?

【锐评】:开源不是免责金牌,当模型厂商被迫亲自下场当"质检员",恰恰说明AI基础设施的混乱已到了不得不治的地步。

参考链接:
https://www.kimi.com/blog/kimi-vendor-verifier