说实话,看到这组benchmark数据的时候,我愣了几秒。

AI配图

AI配图

一个开源模型,在Humanity's Last Exam(带工具)上跑出了54.0%的成绩——比GPT-5.4的52.1%还高。这不是那种"几乎持平"的公关话术,是实打实地压了一头。

AI配图

更离谱的是,这模型能连续干活12个小时,自己调用4000多次工具,把一个冷门编程语言的推理速度优化到比专业工具还快20%。

这不是科幻,是Kimi刚刚开源的K2.6。

Image 1: Kimi K2.6 hero visual

开源阵营终于等来了自己的"尖子生"

先别急着质疑,看看这张成绩单。

在SWE-Bench Pro上,K2.6拿到58.6%,GPT-5.4是57.7%,Claude Opus 4.6只有53.4%。在DeepSearchQA的F1分数上,K2.6的92.5%直接把GPT-5.4的78.6%按在地上摩擦——差距接近14个百分点。

当然,不是所有项目都赢。Terminal-Bench 2.0上Gemini 3.1 Pro以68.5%领先,K2.6是66.7%。数学推理方面,GPT-5.4和Gemini 3.1 Pro在AIME 2026和HMMT 2026上仍然占据优势。

但关键在于:这是一个开源模型,在核心coding能力上,已经能和最顶级的闭源模型掰手腕了。

有意思的是评论区的一条留言:"中国居然成了全球最重要技术的开源先锋,而美国恰恰相反。"这话说得有点讽刺,但确实戳中了某种现实。

12小时、4000次调用、一个冷门语言

真正让K2.6与众不同的,不是单点benchmark,而是"长程编码能力"。

什么意思?简单说,就是能不能长时间、多步骤地完成一个复杂工程任务,而不是写两行代码就"断片"。

K2.6干了一件挺疯狂的事:在Mac本地部署Qwen3.5-0.8B模型,然后用Zig语言——一个相当冷门的编程语言——重写和优化推理代码。

整个过程持续了12个小时,模型自己调用了4000多次工具,迭代了14轮。最终把推理速度从每秒15个token拉升到193个,比专业工具LM Studio还快20%。

Image 3: K2.6 Qwen3.5-0.8B Mac inference optimization case

老实讲,这已经超出了"写代码"的范畴,更像是一个资深工程师的工作方式:分析瓶颈、查阅文档、反复调优、验证结果。

把8年老代码的性能翻倍

如果上一个案例还不够震撼,看看这个。

K2.6自主重构了一个叫exchange-core的开源金融撮合引擎——这玩意儿已经跑了8年,代码早就被各路高手优化过,理论上很难再榨出什么油水。

模型连续工作了13个小时,尝试了12种优化策略,修改了4000多行代码。它像真正的系统架构师一样,分析CPU火焰图,找出隐藏的性能瓶颈,然后大胆重构了核心线程拓扑结构——从4ME+2RE改成2ME+1RE。

结果?中等吞吐量提升185%,性能吞吐量提升133%

Image 4: K2.6 exchange-core coding showcase

个人觉得,这个案例的意义不在于"AI比人强",而在于:AI可以独立完成人类工程师需要数周才能做完的深度优化工作。而且是在一个它从未见过的代码库上。

300个AI同时干活是什么场面

K2.6另一个杀手锏是"Agent Swarm"——智能体集群。

K2.5时代已经支持100个子agent并行工作,K2.6直接把这个数字干到了300个,协调步骤从1500步扩展到4000步

实际效果如何?官方给了几个例子:

  • 分析100个全球半导体资产,生成麦肯锡风格的PPT、详细建模表格和完整的执行报告
  • 把一篇高质量的天体物理论文转化为"可复用技能",然后产出40页、7000字的研究论文、2万多条结构化数据和14张专业图表
  • 根据一份简历,自动匹配加州100个相关职位,生成100份定制化简历

这已经不是"对话式AI"了,更像是一个自动化团队

连续工作5天的"AI员工"

K2.6还在"主动性"上下了功夫。

官方的RL基础设施团队做了一个实验:让一个K2.6驱动的agent自主运行5天,负责监控、事件响应和系统运维。

5天。120小时。没有人类干预。

模型需要自己理解警报、判断优先级、执行修复操作、验证结果。整个"从告警到解决"的完整生命周期,全部自主完成。

Image 17: Kimi Claw Bench

在内部的Claw Bench测试中,K2.6在编程任务、IM生态集成、信息研究分析、计划任务管理和记忆利用五个维度上,全面超越K2.5。特别是在需要"长期自主运行"的场景中,任务完成率和工具调用准确率都有显著提升。

企业用户怎么说

光看官方数据不够,听听第三方怎么说。

Vercel的评价很直接:在他们最关心的Next.js基准测试中,K2.6比K2.5提升了50%以上,"跻身平台顶级模型行列"。

Fireworks AI的反馈聚焦在"稳定性":K2.6在长时间编码会话中能保持架构完整性,"是自主agent管道的可靠基础"。

Baseten的评价更耐人寻味:K2.6的编码能力"与领先的闭源模型相当",而且工具调用质量很高,"因为它对第三方框架有深入理解"。

当然,也有唱反调的声音。

一位开发者评论说:"我试过一次,虽然基准测试看起来很厉害,但实际体验只能算还行。"另一位测试者表示,K2.6在"谜题型任务"和"特定领域精确度"上表现一般,"经常漏掉指令或给出错误答案"。

还有一条评论值得玩味:"如果基准测试和实际体验能对上,这可能是中国AI的DeepSeek时刻——和美国顶尖模型并驾齐驱。"

Claw Groups:你的AI、我的AI、我们的团队

K2.6还推出了一个研究预览功能叫"Claw Groups"——简单说,就是让多个agent和人类真正协作。

不同设备、不同模型驱动的agent可以进入同一个"工作空间",各自带着专业技能和记忆上下文。K2.6在中间当"协调者",根据任务需求动态分配工作,遇到失败自动重新分配。

官方自己就在用这套系统:Demo制作、基准测试、社交媒体、视频生成……不同专业agent协同工作,K2.6负责统筹,把想法变成完整交付物。

用他们的话说:"我们正在超越'问AI一个问题'或'给AI一个任务'的阶段,进入人类和AI作为真正伙伴协作的时代。"

这话听起来有点理想主义,但方向是对的。

写在最后

K2.6不是完美的。在纯推理能力上,它仍然落后于GPT-5.4和Gemini 3.1 Pro。在视觉任务上,差距更明显。

但在"长程执行"和"agent能力"这两个维度上,它确实走在了前面。更重要的是,它是开源的。

当中国团队开始用开源模型挑战美国闭源巨头的护城河,这件事本身就很值得玩味。技术竞争从来不是线性的,弯道超车的剧本,可能比我们想象的更早到来。

至于K2.6到底是不是"DeepSeek时刻"?答案不在benchmark里,在你自己的工作流中。

Image 2: Kimi Code Bench

【锐评】:开源模型能跑12小时不翻车,这已经不是"写代码"了,是"雇员工"。问题是:你准备好当AI的老板了吗?

参考链接:
https://www.kimi.com/blog/kimi-k2-6