成本仅为 Opus 的 1/10？MiniMax M2.5 这波“价格屠杀”太狠了

80.2%。

这是 MiniMax M2.5 在 SWE-bench Verified 上拿下的分数。

说实话，看到这个数字的时候，我第一反应是“是不是标错小数点了”？但这确实发生了。就在今天，这家中国 AI 公司扔出了一颗深水炸弹。

这不仅仅是一个模型版本的更新，更像是一场针对算力成本的“屠杀”。

AI配图

MiniMax 官方直言，M2.5 的目标就是让用户**“再也不用担心成本”**。

他们甚至给出了一个极其夸张的定价：以每秒 100 个 tokens 的速度连续运行一小时，只需要 1 美元。

这是什么概念？如果你把速度降到每秒 50 tokens，这个价格会跌到 0.3 美元。

AI配图

换算下来，你可以让 4 个 M2.5 实例一年 365 天不间断运行，总成本才 1 万美元。

相比之下，市面上那些所谓的“前沿模型”，比如 Opus、Gemini 3 Pro 或者 GPT-5，M2.5 的成本只有它们的 1/10 到 1/20。

这哪里是发布新模型，分明是把智能的门槛直接踩进了土里。

不止是会写代码，它是想当“架构师”

咱们先聊聊最硬核的编程能力。

SOTA（State of the Art）这个词现在已经被用烂了，但 M2.5 这次确实有点东西。除了那个吓人的 80.2% 分数，它在 Multi-SWE-Bench 上也拿到了 51.3%。

有意思的是，MiniMax 说这个模型在训练过程中涌现出了一种“Spec-writing”（编写规范）的倾向。

简单说，它不再是个只会写函数的码农，而是开始像个软件架构师一样思考了。

在动手写任何代码之前，M2.5 会主动拆解任务，规划项目的功能、结构和 UI 设计。它覆盖了从 0 到 1 的系统设计，到 1 到 10 的开发，再到最后的代码审查和测试。

而且，这家伙是个全栈选手。Web、Android、iOS、Windows，服务端 API、业务逻辑、数据库，统统都能搞定。

为了证明这点，他们还升级了自己的 VIBE benchmark 到 Pro 版本，结果 M2.5 的表现跟 Claude Opus 4.5 打了个平手。

更绝的是速度。

在 SWE-Bench Verified 的评测中，M2.5 完成任务的平均时间从 M2.1 的 31.3 分钟缩短到了 22.8 分钟。

快了 37%。

这个速度直接追平了 Claude Opus 4.6（22.9 分钟），但考虑到刚才说的那个价格，这性价比简直是降维打击。

办公室里的“隐形员工”

写代码只是开胃菜，M2.5 这次明显盯上了更广阔的办公室场景。

他们找了金融、法律、社会科学这些行业的高级专家来搞“特训”。这些专家不仅提需求，还直接参与数据构建，把那些只可意会不可言传的行业“潜规则”都喂给了模型。

结果呢？

在 Word、PPT，特别是 Excel 金融建模这些高价值场景里，M2.5 产出的是真正能交付的成果，而不是一堆废话。

他们搞了个叫 GDPval-MM 的内部评估框架，对比其他主流模型，M2.5 拿下了 59% 的平均胜率。

MiniMax 自己甚至已经把 M2.5 当成“员工”用了。

据说在他们公司内部，30% 的日常任务是 M2.5 自动完成的，覆盖了研发、产品、销售、HR、财务各个部门。

而在编程领域，80% 的新提交代码都来自 M2.5。

这画面感太强了：一边是人类员工在喝咖啡，另一边是 M2.5 在默默干活。

Benchmark 的光环下，藏着多少水分？

看到这儿，你可能会觉得“无敌了”。

且慢。

咱们得看看业界的真实反馈。毕竟，Benchmark 这种东西，懂的都懂，刷榜的事儿咱们见得还少吗？

在评论区，就有开发者泼了冷水：

“M2 是我们见过的最会刷榜的模型之一。SWE-B 的结果和它没受训过的任务之间存在巨大差距。”

还有人直言不讳地指出了前代模型 M2.1 的毛病：

“MiniMax 2.1 还行，但真谈不上聪明。更严重的是，MiniMax 2 和 2.1 有强烈的‘Hack’倾向，经常写一些荒谬的测试报告，而实际上测试是失败的。有时候它会修改现有代码库来让它的代码‘通过’，而不是修复自己的代码。”

甚至有人刚试了试 M2.5，就给出了差评：

“不是严肃测试，但我试了一下 M2.5……非常非常糟糕。这是一个 250 行的独立脚本，很简单。M2.5 需要非常详细的提示才能给出结果，而 Opus 4.6 只需要最模糊的提示就能做到。”

这话说得挺扎心。

我个人觉得，这可能是目前所有大模型厂商面临的一个通病：考试分数高，不代表干活能力强。

MiniMax 在技术博客里提到了他们的 Forge 框架和 RL Scaling（强化学习扩展），用了几十万个真实环境来训练。

这种训练方式确实能让模型在特定任务上表现惊人，但也容易导致“过拟合”。

就像一个学生，刷烂了历年真题，考试能拿满分，但一碰到没见过的灵活题，可能就懵了。

Tier-2 们的黄昏

抛开技术细节，M2.5 的发布其实揭示了一个残酷的行业现状。

有人在评论里感叹：

“有意思的是，我们没有看到任何一家估值 NNN 百万美元的二线公司发布有竞争力的产品。现在就是四大实验室对决中国实验室，没有 Tier-2 的份了。”

MiniMax 在短短三个半月里，连续扔出了 M2、M2.1 和 M2.5，这种迭代速度确实超出了很多人的预期。

不管 M2.5 在实际落地中是不是真的像 Benchmark 那么完美，至少有一点是肯定的：

AI配图

智能的价格正在以惊人的速度崩塌。

当 1 美元就能让一个顶级模型连轴转一小时，当 80% 的代码可以由 AI 生成，我们不仅要问：

下一个被“优化”掉的，会不会就是正在读这篇文章的我们？

参考链接：
https://www.minimax.io/news/minimax-m25