开源世界又炸出了一颗核弹。
就在今天,Moonshot AI 推出了 Kimi K2.5,号称“迄今为止最强大的开源模型”。
但这不仅仅是一个参数量的堆叠游戏,而是一次作战方式的彻底颠覆。
想象一下,当你还在等一个 AI 慢吞吞地思考时,它已经悄悄指挥了 100 个子智能体,同时发起了 1500 次工具调用,像蜂群一样瞬间吞没复杂任务。
这不是科幻,这是 Kimi K2.5 带来的 Agent Swarm(智能体群)。
更狠的是,它还是原生多模态,能“看”着视频写代码,能搞定长文档,甚至在多项基准测试中硬刚 GPT-5.2 和 Claude 4.5 Opus。
开源社区的狂欢时刻到了。
蜂群战术:不是一个人在战斗
以前的 AI,像是一个孤独的天才,智商虽高,但只有一双手,只能按顺序干活。
Kimi K2.5 把这个逻辑推翻了。
它引入了 Parallel-Agent Reinforcement Learning (PARL),也就是“并行智能体强化学习”。简单说,K2.5 学会了当指挥官,能自我导演一场大规模的协同作战。
对于复杂任务,K2.5 可以自动创建并指挥多达 100 个子智能体。这些子智能体没有预设剧本,完全由主模型动态生成,并行处理任务。
一个智能体群拥有一个指挥官,动态创建专门的子智能体(如 AI 研究员、物理研究员、事实核查员),并将复杂任务分解为可并行的子任务,以实现高效的分布式执行。
数据不会说谎。
相比于单智能体的顺序执行,这种“蜂群战术”能将执行时间最多缩短 4.5 倍,端到端运行时间减少了 80%。
为了训练这种能力,Moonshot AI 甚至设计了一个“关键步骤”指标,强迫模型去寻找最短的计算路径,而不是单纯堆砌算力。如果并行不能缩短时间,那就是无效的。
举个实战例子:找出 100 个垂直领域 顶流的 YouTube 创作者。
K2.5 会先研究定义这 100 个领域,然后瞬间生成 100 个子智能体,每个负责一个领域的搜索。最后,300 个创作者的资料被汇总成一张结构化的表格。
如果是单兵作战,这得跑断腿;但在蜂群面前,这只是几分钟的事。
在并行智能体强化学习环境中,随着训练的进行,奖励平稳增加。同时,训练期间的并行程度也逐渐提高。
看一眼就会写:视觉编程的暴力美学
Kimi K2.5 的另一个杀手锏,是 Coding with Vision(视觉编程)。
现在的模型都在卷编程,但 K2.5 卷出了新高度——它不仅能读懂代码,还能“看懂”画面。
你给它一段视频,它能直接把视频里的网页重构出来;你给它一张迷宫图,它能写代码算出最短路径。
在三个智能体基准测试——HLE、BrowseComp 和 SWE-Verified 中,Kimi K2.5 以极低的成本交付了强劲的性能。
素材里有一个极其硬核的案例:给一张复杂的迷宫图,找出从左上角到右下角的最短路径。
K2.5 没有瞎猜,它直接写出了 Python 代码,加载图像,二值化处理,然后跑了一遍 BFS(广度优先搜索) 算法。
最终,它在 450 万像素的迷宫里,精准找到了一条由 113,557 个像素 组成的最短路径,还顺手把路径可视化了出来。
这就是视觉与逻辑的完美融合。
在前端开发上,K2.5 也是个狠角色。它能把简单的对话直接变成完整的前端界面,实现滚动触发的动画效果。
甚至,它还能搞“视觉调试”。
Moonshot AI 推出了一个新的产品 Kimi Code,集成在终端和 VSCode、Cursor 等 IDE 里。
在一个演示中,K2.5 仅仅通过视觉输入和文档查询,就自主检查了自己的输出,迭代优化,把马蒂斯的画作《舞蹈》的美学风格迁移到了 Kimi App 的网页上。
它不需要你告诉它“这里错了”,它自己看,自己改。
不仅是写代码,更是干脏活累活
AI 走向实用化,最大的阻碍往往是“最后一公里”。
Kimi K2.5 显然不想只做个极客玩具,它把矛头对准了真实的办公场景。
所谓的“智能体”,在 K2.5 这里变成了实实在在的“打工人”。它能处理高密度的大规模办公任务,从 Word 批注、Excel 数据透视表建模,到 PDF 里的 LaTeX 公式,甚至是一万字的论文或百页文档。
Moonshot AI 设计了两个内部基准:AI Office Benchmark 和 General Agent Benchmark。
结果显示,K2.5 在这两项上比上一代 K2 Thinking 分别提升了 59.3% 和 24.3%。
这意味着什么?
意味着以前需要几个小时甚至几天做的 PPT、报表、文档整理,现在几分钟就能搞定。它不再是只会聊天的陪聊机器人,而是能直接交付文档、表格、PDF 的生产力工具。
硬碰硬的基准测试
吹得再好,还得看跑分。
Kimi K2.5 直接把矛头对准了目前的闭源霸主:GPT-5.2、Claude 4.5 Opus、Gemini 3 Pro。
在 SWE-Bench Verified(软件工程基准)上,K2.5 拿到了 76.8 分,虽然略逊于 Claude 4.5 Opus 的 80.9,但已经把其他对手甩在身后。
在 MMMU-Pro(多学科综合理解)上,它拿到了 78.5 分,紧逼 GPT-5.2 的 79.5。
特别是在 AIME 2025(数学竞赛)这种硬核推理题上,K2.5 拿到了 96.1 分,几乎满分。
智能体群将实现目标性能所需的最少关键步骤减少了 3 倍到 4.5 倍,与单智能体执行相比,随着目标的提高,节省的时间也在增加——通过并行化转化为高达 4.5 倍的挂钟时间减少。
更有意思的是开源协议。
K2.5 采用了 MIT 许可证,几乎可以说是最宽松的开源协议。唯一的附加条款是:如果你的产品月活超过 1 亿或月收入超过 2000 万美元,需要在界面显著位置标注“Kimi K2.5”。
这几乎是对个人开发者和中小型企业的完全拥抱。
对于想本地部署的大佬,评论区有人算了一笔账:大概需要 16 张 H100 80GB 显卡,成本在 50 万到 70 万美金之间。这显然不是给普通玩家准备的,而是给硬核团队准备的。
开源的反击战
从 Qwen3 到 DeepSeek,再到今天的 Kimi K2.5,中国大模型正在以一种惊人的速度逼近世界顶点。
评论里有人敏锐地指出:这些最新的中国模型,已经开始对标 Claude Opus,而不是 Sonnet 了。
Kimi K2.5 的这次发布,不只是参数的胜利,更是架构的胜利。
Agent Swarm 的出现,标志着 AI 正在从“单体智能”向“群体智能”进化。当 100 个 AI 同时为你工作时,效率的质变已经发生。
开源社区从未如此强大。
当 GPT 和 Claude 还在闭源的高墙内内卷时,墙外的世界已经学会了“组团刷怪”。
这场仗,越来越有意思了。
参考链接:
https://www.kimi.com/blog/kimi-k2-5.html