10个人,掀翻了整个行业的桌子

2026年春天,科技圈发生了一件小事——准确说,是一件被刻意低调处理的大事。

微软发了三个模型。

Transcribe-1,语音转文字;Voice-1,语音生成;Image-2,图像生成。

AI配图

三个模型,三个方向,看起来很常规对吧?

但如果你知道背后发生了什么,你就能闻到血腥味。

这三个模型,是微软6年来第一次"单飞"的产物。

带队的人,是Mustafa Suleyman——DeepMind联合创始人,6个月前被微软以"天价"挖来。他接手微软AI业务的第一件事,就是干了所有微软人想干但没人敢干的事:

和OpenAI"离婚"。

当然,不是那种离婚。

是那种——"我们要自己过了,但你还是我最好的朋友"的离婚。


一切从一份合同说起

AI配图

故事要从2019年说起。

那年微软给OpenAI投了10亿美元,换来一份协议:微软可以卖OpenAI的模型,但——注意这个"但"——

微软不能自己搞通用人工智能。

对,你没看错。微软作为全球市值最高的科技公司之一,被自己的合作伙伴用合同拴住了脖子。

这就好比什么呢?

你去星巴克谈合作,说我投资你,但你不能自己卖咖啡。

AI配图

荒谬?但这就是事实。

OpenAI需要微软的云计算,微软需要OpenAI的模型。两家各取所需,井水不犯河水。

但世界变了。

2024年,OpenAI开始找软银、其他云厂商谈合作。微软意识到——我再不自己搞,就真的只剩"分销商"这一个身份了。

2024年9月,双方重新谈判。

结果是什么?

微软获得了"独立追求超级智能"的权力。合同解绑。

Suleyman后来接受采访时说了句大实话:

"就在几周前,微软合同上还写着——不能独立搞AGI。"

现在?他说微软要"完全独立"。


华尔街在等一个答案

这个时间点很微妙。

微软股价刚经历了2008年以来最惨的一个季度。跌了17%。整个软件板块都在被抛售。

为什么?

投资者不是傻子。他们看到的是:微软砸了数百亿美元建数据中心、买GPU,但AI收入呢?雷声大雨点小。

压力来了。

Suleyman的三个模型,就是在这种情况下出炉的。

有意思。

Transcribe-1,语音转文字。官方说法是:25种语言,错误率3.8%,干翻了OpenAI的Whisper和Google的Gemini。

Voice-1,语音生成。1秒生成60秒音频,还能用几秒钟素材克隆声音。

Image-2,图像生成。速度翻倍,价格只有竞品的一半。

但这不是重点。

重点是Suleyman透露的一个细节:

"音频模型是10个人做的。图像模型也少于10人。"

10个人。

Google搞Gemini,Meta搞Llama,哪个不是几千号人?年度预算几十亿?

微软这边,10个人,半年,干翻了行业标杆。

Suleyman的原话:

"我的理念是——需要更少的人,但每个人都更有权力。极度扁平的结构。"

这意味着什么?

意味着AI研发的逻辑正在被改写。不是什么都要堆人海战术。

小团队+好架构+高质量数据=吊打。


微软的"人设"变了

Suleyman还给这三个模型贴了个标签:"Humanist AI"。

翻译成人话:有人情味的AI。

什么意思?

他公开说:"超级智能的动机,应该是真正为人类服务。人类会保持在食物链顶端,始终与人类利益对齐。"

这话是说给谁听的?

说给企业客户听的。

现在哪家大公司敢用AI?银行怕合规,医疗怕出事,政府怕监管。

Suleyman的潜台词是:用我的,我保证不出事。

这和OpenAI、Meta那种"先干了再说"的风格,形成了鲜明对比。

微软在打一张"安全牌"。

另外他还补了一刀:数据来源要干净。

"很多开源模型的数据,训练方式不太合适。"

懂的都懂。这是在暗示某些竞争对手的版权风险。

对企业来说,这意味着什么?

用微软的模型,诉讼风险更低。

这年头,能让法务点头,比什么都重要。


真正的重头戏还在后面

但说实话,今天发的这三个模型,都不是最关键的。

最关键的是Suleyman说的这句话:

"我们绝对会提供所有模态的最先进模型。如果微软需要,我们能以最高效率、最便宜的价格,做到完全独立。"

什么意思?

微软要搞大语言模型了。

真正的GPT杀手。

不是分销商,是开发者。不是二道贩子,是原厂。

当然他知道这有多难。搞一个前沿LLM,需要的数据量、算力、成本,和语音模型不是一个量级。

但他手上有三张牌:

  1. 合同自由了(和OpenAI谈判的结果)
  2. 组织架构独立了(Suleyman不再管Copilot日常,专注"超级智能")
  3. 纳德拉公开支持(从迈阿密飞来团队现场开会)

而且,他已经证明了小团队能干活。

这就够了。


故事还没完

最后说个细节。

Suleyman在MIT Technology Review两年前提过一个概念,叫"现代图灵测试"。

不是机器能不能骗过人类。

而是机器能不能走出实验室,在现实世界里完成真正的经济任务,而且不需要人盯着。

这三个模型,就是在朝那个方向走。

但问题来了——

微软能不能在市场耐心耗尽之前,把大模型也搞出来?

10个人的神话,能复制到千亿参数的战场上吗?

华尔街的基金经理们,还在等着看。


【MiniMax-M2.1锐评】:微软这波操作,本质上是"分销商逆袭成原厂"的商业剧本,但Suleyman用10人团队吊打千人大厂的故事,确实给行业泼了一盆冷水——AI研发的人海战术,该重新想想了。

参考链接:
https://venturebeat.com/technology/microsoft-launches-3-new-ai-models-in-direct-shot-at-openai-and-google