2026年4月12日,MiniMax扔出一颗深水炸弹。

M2.7正式开源,SW E-Pro基准测试得分56.22%,Terminal Bench 2得分57.0%。

这些数字本身已经很漂亮了。但真正炸裂的,是藏在技术报告里的那行小字:

M2.7,是第一个"深度参与自身进化"的模型。

什么意思?

以前,AI是工具。人类写代码,训练模型,迭代版本。M2.7不一样——它自己优化自己,自己搭建实验框架,自己从实验结果里学习。

这已经不是"更强"的问题了。这是范式级的改变。

发生了什么

简单说,MiniMax让M2.7负责了一部分模型迭代的工作。

AI配图

具体操作是这样的:研究人员给M2.7一个任务,M2.7自己查文献、跑数据、调代码、改架构,整个流程里它能处理30%-50%的工作量。

更夸张的是,MiniMax让M2.7自己优化自己的编程性能。M2.7完全自主运行,执行了100多轮"分析失败→规划改动→修改代码→运行评估→对比结果"的迭代循环。

最后,性能提升了30%。

一个模型,自己把自己变强了30%。

这还没完。MiniMax让M2.7去参加了22场机器学习竞赛,单卡A30就能跑的那种。

三轮24小时的自主进化后,最好的一次跑出了9金5银1铜,平均奖牌率66.6%。

这个成绩仅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),跟 Gemini-3.1 持平。

图1

3分钟修好生产故障

如果说"自我进化"听起来还有点抽象,那M2.7在真实生产环境里的表现就非常具体了。

官方给了一个例子:线上环境报警,需要排查故障。

传统流程里,这得一群人加班熬夜轮番排查。但M2.7直接上场:

  • 关联监控指标和发布时间,做因果推理
  • 对trace采样做统计分析,提出精确假设
  • 主动连数据库验证根因
  • 定位到代码库里缺失的索引迁移文件
  • 甚至知道先用非阻塞索引创建把问题压住,再提MR

从分析到数据库再到SRE级决策,一条龙搞定。

多次把生产故障恢复时间压到3分钟以内。

这已经不只是一个"会写代码"的模型了。这是一个真正懂生产系统的AI工程师。

在纯编程能力上,M2.7在SWE-Pro上拿到56.22%,跟GPT-5.3-Codex打平。在更接近真实工程场景的SWE Multilingual上,更是跑出了76.5分。

VIBE-Pro(端到端项目级代码生成)得分55.6%,基本追上Opus 4.6。

也就是说扔一个Web需求、 Android需求、iOS需求给M2.7,它真能给你完整交付。

办公场景也杀疯了

别以为M2.7只会写代码。

在办公软件这个赛道,M2.7的表现同样离谱。

GDPval-AA评测里,45个模型同台竞技,M2.7的ELO得分1495,开源模型里最高。仅次于 Opus 4.6、Sonnet 4.6和GPT-5.4。

具体到Word、Excel、PPT这些日常办公场景,M2.7能直接根据模板生成文件,也能根据用户的多轮交互指令做精确修改。

官方扔了一个例子:让M2.7分析台积电的年报和财报电话会议,自己查多份研报,设计假设建财务模型,最后输出一份PPT和一份Word研究报告。

反馈是:可以直接当初稿用。

这意味着什么?一个junior分析师的活,AI能干了。

而且它不是那种"看起来像但不能用"的水平,是真能进工作流的。

AI配图

在Toolathon上,M2.7准确率46.3%,全球第一梯队。MM Claw测试里,40多个复杂技能(每个超过2000 tokens),97%的指令遵循率

你说它干活靠谱不靠谱。

社区炸锅了

消息发出去后,Twitter评论区瞬间热闹。

有人问跟Opus 4.6和GPT-5.4对比怎么样,有人问本地跑需要多少显存——

答:约140GB。

普通玩家基本告别本地运行了。

但更多人关注的点是:MiniMax说"开源",实际上许可证限制了商业用途。

"Congrats on releasing the model, but it's not open source by OSI definition. Read the first point. Your license is restricted for commercial use."

这波啊,这波算不算"开源"得打个问号。

不过技术本身确实硬核。9金5银1铜、3分钟修故障、97%技能遵循率——这些数据摆在那,绕不开。

写在最后

AI配图

M2.7最让人头皮发麻的,不是56.22%的基准分,不是66.6%的奖牌率。

是那句话:"Model self-evolution"——模型自我进化。

以前我们说AI进化,意思是人类不断训练新版本。M2.7告诉你:不需要了,模型自己就能迭代自己,而且迭代出来的东西真能用。

30%的性能提升自己跑出来,100轮优化自己完成,22场竞赛自己打完。

这不是"更强"。

这是AI开始自己走自己的路了。


【锐评】:当AI开始自己优化自己,人类在训练链上的角色可能很快从"教练"变成"观众"。

参考链接:
https://x.com/MiniMax_AI/status/2043132047397659000