Kimi K2.5 登场：100个AI组成的“蜂群”，正在围剿单兵作战

开源世界又炸出了一颗核弹。

就在今天，Moonshot AI 推出了 Kimi K2.5，号称“迄今为止最强大的开源模型”。

但这不仅仅是一个参数量的堆叠游戏，而是一次作战方式的彻底颠覆。

AI配图

想象一下，当你还在等一个 AI 慢吞吞地思考时，它已经悄悄指挥了 100 个子智能体，同时发起了 1500 次工具调用，像蜂群一样瞬间吞没复杂任务。

这不是科幻，这是 Kimi K2.5 带来的 Agent Swarm（智能体群）。

更狠的是，它还是原生多模态，能“看”着视频写代码，能搞定长文档，甚至在多项基准测试中硬刚 GPT-5.2 和 Claude 4.5 Opus。

AI配图

开源社区的狂欢时刻到了。

蜂群战术：不是一个人在战斗

以前的 AI，像是一个孤独的天才，智商虽高，但只有一双手，只能按顺序干活。

Kimi K2.5 把这个逻辑推翻了。

它引入了 Parallel-Agent Reinforcement Learning (PARL)，也就是“并行智能体强化学习”。简单说，K2.5 学会了当指挥官，能自我导演一场大规模的协同作战。

对于复杂任务，K2.5 可以自动创建并指挥多达 100 个子智能体。这些子智能体没有预设剧本，完全由主模型动态生成，并行处理任务。

一个智能体群拥有一个指挥官，动态创建专门的子智能体（如 AI 研究员、物理研究员、事实核查员），并将复杂任务分解为可并行的子任务，以实现高效的分布式执行。

数据不会说谎。

相比于单智能体的顺序执行，这种“蜂群战术”能将执行时间最多缩短 4.5 倍，端到端运行时间减少了 80%。

为了训练这种能力，Moonshot AI 甚至设计了一个“关键步骤”指标，强迫模型去寻找最短的计算路径，而不是单纯堆砌算力。如果并行不能缩短时间，那就是无效的。

举个实战例子：找出 100 个垂直领域 顶流的 YouTube 创作者。

K2.5 会先研究定义这 100 个领域，然后瞬间生成 100 个子智能体，每个负责一个领域的搜索。最后，300 个创作者的资料被汇总成一张结构化的表格。

如果是单兵作战，这得跑断腿；但在蜂群面前，这只是几分钟的事。

在并行智能体强化学习环境中，随着训练的进行，奖励平稳增加。同时，训练期间的并行程度也逐渐提高。

看一眼就会写：视觉编程的暴力美学

Kimi K2.5 的另一个杀手锏，是 Coding with Vision（视觉编程）。

现在的模型都在卷编程，但 K2.5 卷出了新高度——它不仅能读懂代码，还能“看懂”画面。

你给它一段视频，它能直接把视频里的网页重构出来；你给它一张迷宫图，它能写代码算出最短路径。

在三个智能体基准测试——HLE、BrowseComp 和 SWE-Verified 中，Kimi K2.5 以极低的成本交付了强劲的性能。

素材里有一个极其硬核的案例：给一张复杂的迷宫图，找出从左上角到右下角的最短路径。

K2.5 没有瞎猜，它直接写出了 Python 代码，加载图像，二值化处理，然后跑了一遍 BFS（广度优先搜索） 算法。

最终，它在 450 万像素的迷宫里，精准找到了一条由 113,557 个像素 组成的最短路径，还顺手把路径可视化了出来。

这就是视觉与逻辑的完美融合。

在前端开发上，K2.5 也是个狠角色。它能把简单的对话直接变成完整的前端界面，实现滚动触发的动画效果。

甚至，它还能搞“视觉调试”。

Moonshot AI 推出了一个新的产品 Kimi Code，集成在终端和 VSCode、Cursor 等 IDE 里。

在一个演示中，K2.5 仅仅通过视觉输入和文档查询，就自主检查了自己的输出，迭代优化，把马蒂斯的画作《舞蹈》的美学风格迁移到了 Kimi App 的网页上。

它不需要你告诉它“这里错了”，它自己看，自己改。

不仅是写代码，更是干脏活累活

AI 走向实用化，最大的阻碍往往是“最后一公里”。

Kimi K2.5 显然不想只做个极客玩具，它把矛头对准了真实的办公场景。

所谓的“智能体”，在 K2.5 这里变成了实实在在的“打工人”。它能处理高密度的大规模办公任务，从 Word 批注、Excel 数据透视表建模，到 PDF 里的 LaTeX 公式，甚至是一万字的论文或百页文档。

Moonshot AI 设计了两个内部基准：AI Office Benchmark 和 General Agent Benchmark。

结果显示，K2.5 在这两项上比上一代 K2 Thinking 分别提升了 59.3% 和 24.3%。

这意味着什么？

意味着以前需要几个小时甚至几天做的 PPT、报表、文档整理，现在几分钟就能搞定。它不再是只会聊天的陪聊机器人，而是能直接交付文档、表格、PDF 的生产力工具。

硬碰硬的基准测试

吹得再好，还得看跑分。

Kimi K2.5 直接把矛头对准了目前的闭源霸主：GPT-5.2、Claude 4.5 Opus、Gemini 3 Pro。

在 SWE-Bench Verified（软件工程基准）上，K2.5 拿到了 76.8 分，虽然略逊于 Claude 4.5 Opus 的 80.9，但已经把其他对手甩在身后。

在 MMMU-Pro（多学科综合理解）上，它拿到了 78.5 分，紧逼 GPT-5.2 的 79.5。

特别是在 AIME 2025（数学竞赛）这种硬核推理题上，K2.5 拿到了 96.1 分，几乎满分。

智能体群将实现目标性能所需的最少关键步骤减少了 3 倍到 4.5 倍，与单智能体执行相比，随着目标的提高，节省的时间也在增加——通过并行化转化为高达 4.5 倍的挂钟时间减少。

更有意思的是开源协议。

K2.5 采用了 MIT 许可证，几乎可以说是最宽松的开源协议。唯一的附加条款是：如果你的产品月活超过 1 亿或月收入超过 2000 万美元，需要在界面显著位置标注“Kimi K2.5”。

这几乎是对个人开发者和中小型企业的完全拥抱。

对于想本地部署的大佬，评论区有人算了一笔账：大概需要 16 张 H100 80GB 显卡，成本在 50 万到 70 万美金之间。这显然不是给普通玩家准备的，而是给硬核团队准备的。

开源的反击战

从 Qwen3 到 DeepSeek，再到今天的 Kimi K2.5，中国大模型正在以一种惊人的速度逼近世界顶点。

评论里有人敏锐地指出：这些最新的中国模型，已经开始对标 Claude Opus，而不是 Sonnet 了。

Kimi K2.5 的这次发布，不只是参数的胜利，更是架构的胜利。

Agent Swarm 的出现，标志着 AI 正在从“单体智能”向“群体智能”进化。当 100 个 AI 同时为你工作时，效率的质变已经发生。

开源社区从未如此强大。

当 GPT 和 Claude 还在闭源的高墙内内卷时，墙外的世界已经学会了“组团刷怪”。

这场仗，越来越有意思了。

参考链接：
https://www.kimi.com/blog/kimi-k2-5.html