3月26日这一天,对于ElevenLabs这样的闭源语音独角兽来说,可能有点“糟心”。

就在同一天,大模型圈的“开源双子星”——Mistral和Cohere,不约而同地把枪口对准了语音赛道。一边是Mistral发布了能跑在智能手表上的TTS(文本转语音)模型;另一边是Cohere扔出了一个仅20亿参数却霸榜Hugging Face的ASR(语音转文字)模型。

两家公司,一个攻“嘴”,一个攻“耳”,而且都祭出了同一个杀手锏:开源权重。

这不仅仅是发布新产品,更像是一场针对闭源霸主的“围剿战”。当企业可以用极低成本在本地部署顶级语音模型时,谁还愿意按次付费租用API?

Mistral的“特种兵”战术:把模型塞进智能手表

Mistral这家法国公司,向来擅长用“小而美”四两拨千斤。

AI配图

这次发布的Voxtral TTS,直接打出了“端侧设备”这张牌。根据TechCrunch的报道,Mistral科学运营副总裁Pierre Stock直言不讳:“我们构建了一个小型语音模型,可以适配智能手表、智能手机、笔记本电脑或其他边缘设备。”

这招太狠了。

目前的语音AI市场,ElevenLabs和OpenAI占据了大量份额,但他们的逻辑是“云端租赁”——你的声音数据要上传,你按调用次数付钱。这对于很多企业来说,不仅涉及隐私泄露风险,还有高昂的延迟成本。

而Voxtral TTS不仅支持9种语言,还能在不到5秒的音频样本中克隆声音,甚至捕捉微妙的口音和语调。最关键的是,它开源了权重,企业可以下载下来,跑在自己的服务器甚至设备端。

在X(推特)上,开发者社区已经沸腾。知名开发者Victor Mustar在体验后发推称:“新的Voxtral-4B-TTS听起来太棒了,它仿佛在对闭源模型耳语:‘你们的时代结束了’。”

这句话,或许道出了很多人的心声。

Cohere的“轻量级”核弹:20亿参数干翻行业巨头

如果说Mistral是在TTS领域“掀桌子”,那Cohere就是在ASR领域“砸场子”。

同一天,Cohere发布了Transcribe模型。参数量只有20亿(2B),这在如今动辄千亿参数的大模型时代简直像个“婴儿”。但就是这个“婴儿”,在Hugging Face的Open ASR排行榜上,以5.42的平均词错率(WER),直接干趴了Zoom Scribe v1、IBM Granite 4.0,甚至还有ElevenLabs的Scribe v2。

这就很有意思了。

通常我们认为,模型越大能力越强。但Cohere证明了,在垂类赛道,小模型经过精调,完全可以超越通用大模型。而且,这个小模型可以在消费级GPU上运行,处理速度高达每分钟525分钟音频。

这意味着什么?意味着一家企业不需要购买昂贵的算力集群,就能在本地搭建一套顶级的会议转录系统。

Cohere宣称,在人类评估中,Transcribe的转录准确性和可用性胜率高达61%。虽然它在葡萄牙语、德语和西班牙语上稍显逊色,但考虑到它是开源的、免费的、可本地部署的,这点瑕疵完全在可接受范围内。

Google的防守反击:Gemini 3.1 Flash Live

面对开源势力的步步紧逼,闭源巨头并没有坐以待毙。

就在Mistral和Cohere发布开源模型的几乎同一时间,Google DeepMind推出了Gemini 3.1 Flash Live。这被看作是Google在语音交互领域的一次强力反击。

根据Google官方介绍,Gemini 3.1 Flash Live主打“更自然的对话”和“改进的功能调用”,甚至展示了令人惊叹的“语音编程”能力——开发者可以一边说话,一边看着AI实时生成代码。

这确实很酷,也展示了闭源大模型在复杂指令理解和多模态融合上的深厚功底。Google AI甚至打出了“Vibe code at the speed of thought”(思维速度的气氛编程)这样的口号。

但是,这依然无法掩盖一个尴尬的现实:这是属于云端的狂欢。 企业依然无法拥有模型,依然需要将数据上传到Google的服务器,依然需要为每一次API调用付费。

Google在秀肌肉,证明闭源模型依然有技术壁垒;而Mistral和Cohere在拆门槛,证明顶级技术不再高不可攀。

语音AI的“安卓时刻”到了?

为什么这一天这么重要?

VentureBeat在报道中提到,全球语音AI市场在2026年已跨越220亿美元大关,预计到2034年,仅语音代理细分市场就将达到475亿美元。

AI配图

这是一个巨大的蛋糕。过去,这块蛋糕主要由ElevenLabs、OpenAI这样的闭源厂商通过API服务切分。企业虽然担心隐私和成本,但苦于没有替代方案。

现在,逻辑变了。

Mistral和Cohere的策略非常清晰:既然你们垄断了API,那我们就把武器发给所有人。

“企业租用声音,但他们并不拥有声音。”——VentureBeat对Mistral发布策略的点评可谓一针见血。

AI配图

开源权重的出现,让语音AI从“租用制”走向了“私有制”。对于金融、医疗、法律等对数据隐私极度敏感的行业,这意味着他们终于可以摆脱云端API的束缚,把语音模型部署在内网,甚至端侧设备上。

正如素材中提到的,Mistral的模型甚至能跑在智能手表上。这种极致的低延迟和隐私保护,是任何云端模型都无法比拟的。

AI锐评:

这一天或许会被载入AI史册:开源模型终于在语音这个最贴近C端的赛道,完成了对闭源巨头的“农村包围城市”。ElevenLabs们还没死,但他们的溢价权已经被Mistral和Cohere用两记重拳打掉了一半。语音AI的“免费时代”,可能真的要来了。


参考来源:

  1. Mistral AI 开源 TTS 模型 Voxtral,VentureBeat
  2. Mistral 杀入语音赛道,TechCrunch
  3. Voxtral-4B-TTS 发布,X (Twitter)
  4. Google DeepMind 发布 Gemini 3.1 Flash Live,X (Twitter)
  5. Google AI 展示语音编程能力,X (Twitter)
  6. Mistral AI 发布 Voxtral TTS 公告,X (Twitter)
  7. Cohere 发布开源语音识别模型 Transcribe,X (Twitter)
  8. Cohere 开源语音转录模型报道,TechCrunch