语音AI变天：Mistral和Cohere联手“开源”，闭源巨头的护城河裂了

3月26日这一天，对于ElevenLabs这样的闭源语音独角兽来说，可能有点“糟心”。

就在同一天，大模型圈的“开源双子星”——Mistral和Cohere，不约而同地把枪口对准了语音赛道。一边是Mistral发布了能跑在智能手表上的TTS（文本转语音）模型；另一边是Cohere扔出了一个仅20亿参数却霸榜Hugging Face的ASR（语音转文字）模型。

两家公司，一个攻“嘴”，一个攻“耳”，而且都祭出了同一个杀手锏：开源权重。

这不仅仅是发布新产品，更像是一场针对闭源霸主的“围剿战”。当企业可以用极低成本在本地部署顶级语音模型时，谁还愿意按次付费租用API？

Mistral的“特种兵”战术：把模型塞进智能手表

Mistral这家法国公司，向来擅长用“小而美”四两拨千斤。

AI配图

这次发布的Voxtral TTS，直接打出了“端侧设备”这张牌。根据TechCrunch的报道，Mistral科学运营副总裁Pierre Stock直言不讳：“我们构建了一个小型语音模型，可以适配智能手表、智能手机、笔记本电脑或其他边缘设备。”

这招太狠了。

目前的语音AI市场，ElevenLabs和OpenAI占据了大量份额，但他们的逻辑是“云端租赁”——你的声音数据要上传，你按调用次数付钱。这对于很多企业来说，不仅涉及隐私泄露风险，还有高昂的延迟成本。

而Voxtral TTS不仅支持9种语言，还能在不到5秒的音频样本中克隆声音，甚至捕捉微妙的口音和语调。最关键的是，它开源了权重，企业可以下载下来，跑在自己的服务器甚至设备端。

在X（推特）上，开发者社区已经沸腾。知名开发者Victor Mustar在体验后发推称：“新的Voxtral-4B-TTS听起来太棒了，它仿佛在对闭源模型耳语：‘你们的时代结束了’。”

这句话，或许道出了很多人的心声。

Cohere的“轻量级”核弹：20亿参数干翻行业巨头

如果说Mistral是在TTS领域“掀桌子”，那Cohere就是在ASR领域“砸场子”。

同一天，Cohere发布了Transcribe模型。参数量只有20亿（2B），这在如今动辄千亿参数的大模型时代简直像个“婴儿”。但就是这个“婴儿”，在Hugging Face的Open ASR排行榜上，以5.42的平均词错率（WER），直接干趴了Zoom Scribe v1、IBM Granite 4.0，甚至还有ElevenLabs的Scribe v2。

这就很有意思了。

通常我们认为，模型越大能力越强。但Cohere证明了，在垂类赛道，小模型经过精调，完全可以超越通用大模型。而且，这个小模型可以在消费级GPU上运行，处理速度高达每分钟525分钟音频。

这意味着什么？意味着一家企业不需要购买昂贵的算力集群，就能在本地搭建一套顶级的会议转录系统。

Cohere宣称，在人类评估中，Transcribe的转录准确性和可用性胜率高达61%。虽然它在葡萄牙语、德语和西班牙语上稍显逊色，但考虑到它是开源的、免费的、可本地部署的，这点瑕疵完全在可接受范围内。

Google的防守反击：Gemini 3.1 Flash Live

面对开源势力的步步紧逼，闭源巨头并没有坐以待毙。

就在Mistral和Cohere发布开源模型的几乎同一时间，Google DeepMind推出了Gemini 3.1 Flash Live。这被看作是Google在语音交互领域的一次强力反击。

根据Google官方介绍，Gemini 3.1 Flash Live主打“更自然的对话”和“改进的功能调用”，甚至展示了令人惊叹的“语音编程”能力——开发者可以一边说话，一边看着AI实时生成代码。

这确实很酷，也展示了闭源大模型在复杂指令理解和多模态融合上的深厚功底。Google AI甚至打出了“Vibe code at the speed of thought”（思维速度的气氛编程）这样的口号。

但是，这依然无法掩盖一个尴尬的现实：这是属于云端的狂欢。 企业依然无法拥有模型，依然需要将数据上传到Google的服务器，依然需要为每一次API调用付费。

Google在秀肌肉，证明闭源模型依然有技术壁垒；而Mistral和Cohere在拆门槛，证明顶级技术不再高不可攀。

语音AI的“安卓时刻”到了？

为什么这一天这么重要？

VentureBeat在报道中提到，全球语音AI市场在2026年已跨越220亿美元大关，预计到2034年，仅语音代理细分市场就将达到475亿美元。

AI配图

这是一个巨大的蛋糕。过去，这块蛋糕主要由ElevenLabs、OpenAI这样的闭源厂商通过API服务切分。企业虽然担心隐私和成本，但苦于没有替代方案。

现在，逻辑变了。

Mistral和Cohere的策略非常清晰：既然你们垄断了API，那我们就把武器发给所有人。

“企业租用声音，但他们并不拥有声音。”——VentureBeat对Mistral发布策略的点评可谓一针见血。

AI配图

开源权重的出现，让语音AI从“租用制”走向了“私有制”。对于金融、医疗、法律等对数据隐私极度敏感的行业，这意味着他们终于可以摆脱云端API的束缚，把语音模型部署在内网，甚至端侧设备上。

正如素材中提到的，Mistral的模型甚至能跑在智能手表上。这种极致的低延迟和隐私保护，是任何云端模型都无法比拟的。

AI锐评：

这一天或许会被载入AI史册：开源模型终于在语音这个最贴近C端的赛道，完成了对闭源巨头的“农村包围城市”。ElevenLabs们还没死，但他们的溢价权已经被Mistral和Cohere用两记重拳打掉了一半。语音AI的“免费时代”，可能真的要来了。

参考来源：

Mistral AI 开源 TTS 模型 Voxtral，VentureBeat
Mistral 杀入语音赛道，TechCrunch
Voxtral-4B-TTS 发布，X (Twitter)
Google DeepMind 发布 Gemini 3.1 Flash Live，X (Twitter)
Google AI 展示语音编程能力，X (Twitter)
Mistral AI 发布 Voxtral TTS 公告，X (Twitter)
Cohere 发布开源语音识别模型 Transcribe，X (Twitter)
Cohere 开源语音转录模型报道，TechCrunch