当AI开始自己给自己写代码:MiniMax M2.7的"递归革命"与闭源转身
30%到50%的开发工作,没人插手。
这不是科幻片里的天网觉醒,而是MiniMax刚刚扔向AI圈的一枚深水炸弹。这家上海AI公司的新模型M2.7,正在做一件让硅谷都感到棘手的事——它用自己训练自己。
从调试代码到分析失败轨迹,从规划修改到迭代优化,这个模型已经能包办近半数的"自我发育"流程。换句话说,它不只是被造出来的产品,还是自己的建筑师。
这很酷。也很微妙。
自我进化的闭环:机器终于开始"自省"
让我们看看M2.7是怎么"活"过来的。
据MiniMax公开的流程图,早期版本的模型被丢进一个强化学习框架,任务只有一个:造一个更好的自己。 它自主触发日志读取、漏洞调试、指标分析,在超过100轮的迭代循环里,像人类程序员一样盯着报错信息发呆(如果AI会发呆的话),然后默默修改代码。
结果是?在MLE Bench Lite这套机器学习竞赛里,M2.7拿下了66.6%的奖牌率。
这个数字追平了Google最新的Gemini 3.1,逼近了Anthropic Claude Opus 4.6的行业标杆。
MiniMax工程负责人Skyler Miao在X上放话:"我们刻意训练模型更擅长规划和澄清需求。下一步是更复杂的用户模拟器。"
翻译一下:他们想让AI不仅能写代码,还能猜到你到底想要什么——在你自己都没想明白之前。
性能与幻觉:便宜≠妥协
如果你以为"自我进化"只是个噱头,数据会打脸。
比起今年2月发布的M2.5,M2.7在真实工程场景里完全是脱胎换骨。SWE-Pro基准测试56.22%的得分,让它与GPT-5.3-Codex平起平坐;Terminal Bench 2上57.0%的分数,证明它懂的是复杂运维逻辑,不是简单的代码生成套路。
最狠的是幻觉控制。
M2.5在AA-Omniscience Index上还挂着-40分的尴尬成绩,M2.7直接干到了+1分。34%的幻觉率,比Claude Sonnet 4.6的46%和Gemini 3.1 Pro Preview的50%都要低。在GDPval-AA文档处理测试里,1495分的Elo评分甚至号称开源可访问模型中的第一。
说实话,这种进步速度有点吓人。Artificial Analysis Intelligence Index上,M2.7用50分(全球第8)的成绩,比M2.5一个月前高出8分。
一个月8分。这个迭代曲线,人类工程师看了可能想辞职。
价格屠夫:1.5美元 vs 210美元的战争
但MiniMax真正让同行睡不着的,可能是价格。
M2.7的API定价堪称残暴:输入$0.30/百万token,输出$1.20/百万token。 总价$1.50,与M2.5持平。
这是什么概念?看看这张表:
| 模型 | 输入 | 输出 | 总成本 |
|---|---|---|---|
| MiniMax M2.7 | $0.30 | $1.20 | $1.50 |
| GLM-5 | $1.00 | $3.20 | $4.20 |
| Claude Haiku 4.5 | $1.00 | $5.00 | $6.00 |
| GPT-5.4 | $2.50 | $15.00 | $17.50 |
| Claude Opus 4.6 | $5.00 | $25.00 | $30.00 |
| GPT-5.4 Pro | $30.00 | $180.00 | $210.00 |
只有xAI的Grok 4.1 Fast($0.70)比它便宜,但性能不在一个量级。
运行同等智能水平任务,M2.7花费$176,GLM-5要$547,Kimi K2.5要$371。 不到三分之一的价格,持平甚至更好的性能。这不是性价比,这是价格屠杀。
难怪他们能迅速集成进Claude Code、Cursor、Trae等11个主流开发工具。当AI agent的调用成本降到这个程度,"vibe coding"(自然语言编程)真的要从玩具变成生产工具了。
开源英雄的"叛逃"?
等等。故事到这里有个奇怪的转折。
MiniMax过去一年可是靠着开源打响名号的——Hailuo视频生成模型、开源LLM,让他们在全球开发者圈子里攒足了口碑。但现在,M2.7是闭源的。
权重不公开,只能通过API调用。这不仅仅是MiniMax一家的事。z.ai的GLM-5 Turbo已经闭源,阿里Qwen团队也被传在高层离职后转向专有开发。
中国AI公司,正在集体从"开源先锋"转向"闭源追随者"。
讽刺吗?一年前他们还在用开源License挑战OpenAI的封闭花园,现在却走上了同一条路。理由很简单:当你花了大价钱训练出能自我进化的顶级模型,开源就像把印钞机图纸免费送人。
但这对企业用户意味着风险。M2.7虽然便宜好用,但它躺在上海的服务器上,受中国法律管辖,且不支持离线本地部署。对于欧美金融、政府、医疗这类强监管行业,这几乎是致命伤。
技术民主化,但地缘政治不民主。
递归的未来:人类只是启动器?
回到那个30-50%的数字。
MiniMax说,他们的目标是实现模型训练和推理架构的"完全自主",不需要人类参与。这听起来像技术人员的终极梦想——也是某些人的噩梦。
当AI开始自己优化自己的强化学习框架,自己调试自己的代码,自己规划自己的进化路径,人类扮演的角色会不会从"设计师"降级为"启动器"?
M2.7已经能在三分钟内自动关联监控指标和代码库,把生产事故恢复时间压到极限。下一步呢?端到端的全项目交付?自主的agent团队?
我们正站在一个奇点的边缘。不是那种科幻片里AI觉醒要毁灭人类的奇点,而是更务实的、更微妙的奇点:当AI的迭代速度超过人类理解速度,当模型的递归自我改进成为常态,我们还能跟上自己造出来的东西吗?
MiniMax给出了一个便宜、强大、但封闭的答案。接不接受,看你了。
【kimi-k2.5锐评】:当中国AI从开源理想主义滑向闭源实用主义,M2.7的"自我进化"更像是给资本讲的新故事——毕竟,能自己迭代的印钞机,谁舍得开源?
参考链接:
https://venturebeat.com/technology/new-minimax-m2-7-proprietary-ai-model-is-self-evolving-and-can-perform-30-50