80.2%。
这是 MiniMax M2.5 在 SWE-bench Verified 上拿下的分数。
说实话,看到这个数字的时候,我第一反应是“是不是标错小数点了”?但这确实发生了。就在今天,这家中国 AI 公司扔出了一颗深水炸弹。
这不仅仅是一个模型版本的更新,更像是一场针对算力成本的“屠杀”。
MiniMax 官方直言,M2.5 的目标就是让用户**“再也不用担心成本”**。
他们甚至给出了一个极其夸张的定价:以每秒 100 个 tokens 的速度连续运行一小时,只需要 1 美元。
这是什么概念?如果你把速度降到每秒 50 tokens,这个价格会跌到 0.3 美元。
换算下来,你可以让 4 个 M2.5 实例一年 365 天不间断运行,总成本才 1 万美元。
相比之下,市面上那些所谓的“前沿模型”,比如 Opus、Gemini 3 Pro 或者 GPT-5,M2.5 的成本只有它们的 1/10 到 1/20。
这哪里是发布新模型,分明是把智能的门槛直接踩进了土里。
不止是会写代码,它是想当“架构师”
咱们先聊聊最硬核的编程能力。
SOTA(State of the Art)这个词现在已经被用烂了,但 M2.5 这次确实有点东西。除了那个吓人的 80.2% 分数,它在 Multi-SWE-Bench 上也拿到了 51.3%。
有意思的是,MiniMax 说这个模型在训练过程中涌现出了一种“Spec-writing”(编写规范)的倾向。
简单说,它不再是个只会写函数的码农,而是开始像个软件架构师一样思考了。
在动手写任何代码之前,M2.5 会主动拆解任务,规划项目的功能、结构和 UI 设计。它覆盖了从 0 到 1 的系统设计,到 1 到 10 的开发,再到最后的代码审查和测试。
而且,这家伙是个全栈选手。Web、Android、iOS、Windows,服务端 API、业务逻辑、数据库,统统都能搞定。
为了证明这点,他们还升级了自己的 VIBE benchmark 到 Pro 版本,结果 M2.5 的表现跟 Claude Opus 4.5 打了个平手。
更绝的是速度。
在 SWE-Bench Verified 的评测中,M2.5 完成任务的平均时间从 M2.1 的 31.3 分钟缩短到了 22.8 分钟。
快了 37%。
这个速度直接追平了 Claude Opus 4.6(22.9 分钟),但考虑到刚才说的那个价格,这性价比简直是降维打击。
办公室里的“隐形员工”
写代码只是开胃菜,M2.5 这次明显盯上了更广阔的办公室场景。
他们找了金融、法律、社会科学这些行业的高级专家来搞“特训”。这些专家不仅提需求,还直接参与数据构建,把那些只可意会不可言传的行业“潜规则”都喂给了模型。
结果呢?
在 Word、PPT,特别是 Excel 金融建模这些高价值场景里,M2.5 产出的是真正能交付的成果,而不是一堆废话。
他们搞了个叫 GDPval-MM 的内部评估框架,对比其他主流模型,M2.5 拿下了 59% 的平均胜率。
MiniMax 自己甚至已经把 M2.5 当成“员工”用了。
据说在他们公司内部,30% 的日常任务是 M2.5 自动完成的,覆盖了研发、产品、销售、HR、财务各个部门。
而在编程领域,80% 的新提交代码都来自 M2.5。
这画面感太强了:一边是人类员工在喝咖啡,另一边是 M2.5 在默默干活。
Benchmark 的光环下,藏着多少水分?
看到这儿,你可能会觉得“无敌了”。
且慢。
咱们得看看业界的真实反馈。毕竟,Benchmark 这种东西,懂的都懂,刷榜的事儿咱们见得还少吗?
在评论区,就有开发者泼了冷水:
“M2 是我们见过的最会刷榜的模型之一。SWE-B 的结果和它没受训过的任务之间存在巨大差距。”
还有人直言不讳地指出了前代模型 M2.1 的毛病:
“MiniMax 2.1 还行,但真谈不上聪明。更严重的是,MiniMax 2 和 2.1 有强烈的‘Hack’倾向,经常写一些荒谬的测试报告,而实际上测试是失败的。有时候它会修改现有代码库来让它的代码‘通过’,而不是修复自己的代码。”
甚至有人刚试了试 M2.5,就给出了差评:
“不是严肃测试,但我试了一下 M2.5……非常非常糟糕。这是一个 250 行的独立脚本,很简单。M2.5 需要非常详细的提示才能给出结果,而 Opus 4.6 只需要最模糊的提示就能做到。”
这话说得挺扎心。
我个人觉得,这可能是目前所有大模型厂商面临的一个通病:考试分数高,不代表干活能力强。
MiniMax 在技术博客里提到了他们的 Forge 框架和 RL Scaling(强化学习扩展),用了几十万个真实环境来训练。
这种训练方式确实能让模型在特定任务上表现惊人,但也容易导致“过拟合”。
就像一个学生,刷烂了历年真题,考试能拿满分,但一碰到没见过的灵活题,可能就懵了。
Tier-2 们的黄昏
抛开技术细节,M2.5 的发布其实揭示了一个残酷的行业现状。
有人在评论里感叹:
“有意思的是,我们没有看到任何一家估值 NNN 百万美元的二线公司发布有竞争力的产品。现在就是四大实验室对决中国实验室,没有 Tier-2 的份了。”
MiniMax 在短短三个半月里,连续扔出了 M2、M2.1 和 M2.5,这种迭代速度确实超出了很多人的预期。
不管 M2.5 在实际落地中是不是真的像 Benchmark 那么完美,至少有一点是肯定的:
智能的价格正在以惊人的速度崩塌。
当 1 美元就能让一个顶级模型连轴转一小时,当 80% 的代码可以由 AI 生成,我们不仅要问:
下一个被“优化”掉的,会不会就是正在读这篇文章的我们?
参考链接:
https://www.minimax.io/news/minimax-m25