3月26日这一天,对于ElevenLabs这样的闭源语音独角兽来说,可能有点“糟心”。
就在同一天,大模型圈的“开源双子星”——Mistral和Cohere,不约而同地把枪口对准了语音赛道。一边是Mistral发布了能跑在智能手表上的TTS(文本转语音)模型;另一边是Cohere扔出了一个仅20亿参数却霸榜Hugging Face的ASR(语音转文字)模型。
两家公司,一个攻“嘴”,一个攻“耳”,而且都祭出了同一个杀手锏:开源权重。
这不仅仅是发布新产品,更像是一场针对闭源霸主的“围剿战”。当企业可以用极低成本在本地部署顶级语音模型时,谁还愿意按次付费租用API?
Mistral的“特种兵”战术:把模型塞进智能手表
Mistral这家法国公司,向来擅长用“小而美”四两拨千斤。
这次发布的Voxtral TTS,直接打出了“端侧设备”这张牌。根据TechCrunch的报道,Mistral科学运营副总裁Pierre Stock直言不讳:“我们构建了一个小型语音模型,可以适配智能手表、智能手机、笔记本电脑或其他边缘设备。”
这招太狠了。
目前的语音AI市场,ElevenLabs和OpenAI占据了大量份额,但他们的逻辑是“云端租赁”——你的声音数据要上传,你按调用次数付钱。这对于很多企业来说,不仅涉及隐私泄露风险,还有高昂的延迟成本。
而Voxtral TTS不仅支持9种语言,还能在不到5秒的音频样本中克隆声音,甚至捕捉微妙的口音和语调。最关键的是,它开源了权重,企业可以下载下来,跑在自己的服务器甚至设备端。
在X(推特)上,开发者社区已经沸腾。知名开发者Victor Mustar在体验后发推称:“新的Voxtral-4B-TTS听起来太棒了,它仿佛在对闭源模型耳语:‘你们的时代结束了’。”
这句话,或许道出了很多人的心声。
Cohere的“轻量级”核弹:20亿参数干翻行业巨头
如果说Mistral是在TTS领域“掀桌子”,那Cohere就是在ASR领域“砸场子”。
同一天,Cohere发布了Transcribe模型。参数量只有20亿(2B),这在如今动辄千亿参数的大模型时代简直像个“婴儿”。但就是这个“婴儿”,在Hugging Face的Open ASR排行榜上,以5.42的平均词错率(WER),直接干趴了Zoom Scribe v1、IBM Granite 4.0,甚至还有ElevenLabs的Scribe v2。
这就很有意思了。
通常我们认为,模型越大能力越强。但Cohere证明了,在垂类赛道,小模型经过精调,完全可以超越通用大模型。而且,这个小模型可以在消费级GPU上运行,处理速度高达每分钟525分钟音频。
这意味着什么?意味着一家企业不需要购买昂贵的算力集群,就能在本地搭建一套顶级的会议转录系统。
Cohere宣称,在人类评估中,Transcribe的转录准确性和可用性胜率高达61%。虽然它在葡萄牙语、德语和西班牙语上稍显逊色,但考虑到它是开源的、免费的、可本地部署的,这点瑕疵完全在可接受范围内。
Google的防守反击:Gemini 3.1 Flash Live
面对开源势力的步步紧逼,闭源巨头并没有坐以待毙。
就在Mistral和Cohere发布开源模型的几乎同一时间,Google DeepMind推出了Gemini 3.1 Flash Live。这被看作是Google在语音交互领域的一次强力反击。
根据Google官方介绍,Gemini 3.1 Flash Live主打“更自然的对话”和“改进的功能调用”,甚至展示了令人惊叹的“语音编程”能力——开发者可以一边说话,一边看着AI实时生成代码。
这确实很酷,也展示了闭源大模型在复杂指令理解和多模态融合上的深厚功底。Google AI甚至打出了“Vibe code at the speed of thought”(思维速度的气氛编程)这样的口号。
但是,这依然无法掩盖一个尴尬的现实:这是属于云端的狂欢。 企业依然无法拥有模型,依然需要将数据上传到Google的服务器,依然需要为每一次API调用付费。
Google在秀肌肉,证明闭源模型依然有技术壁垒;而Mistral和Cohere在拆门槛,证明顶级技术不再高不可攀。
语音AI的“安卓时刻”到了?
为什么这一天这么重要?
VentureBeat在报道中提到,全球语音AI市场在2026年已跨越220亿美元大关,预计到2034年,仅语音代理细分市场就将达到475亿美元。
这是一个巨大的蛋糕。过去,这块蛋糕主要由ElevenLabs、OpenAI这样的闭源厂商通过API服务切分。企业虽然担心隐私和成本,但苦于没有替代方案。
现在,逻辑变了。
Mistral和Cohere的策略非常清晰:既然你们垄断了API,那我们就把武器发给所有人。
“企业租用声音,但他们并不拥有声音。”——VentureBeat对Mistral发布策略的点评可谓一针见血。
开源权重的出现,让语音AI从“租用制”走向了“私有制”。对于金融、医疗、法律等对数据隐私极度敏感的行业,这意味着他们终于可以摆脱云端API的束缚,把语音模型部署在内网,甚至端侧设备上。
正如素材中提到的,Mistral的模型甚至能跑在智能手表上。这种极致的低延迟和隐私保护,是任何云端模型都无法比拟的。
AI锐评:
这一天或许会被载入AI史册:开源模型终于在语音这个最贴近C端的赛道,完成了对闭源巨头的“农村包围城市”。ElevenLabs们还没死,但他们的溢价权已经被Mistral和Cohere用两记重拳打掉了一半。语音AI的“免费时代”,可能真的要来了。
参考来源:
- Mistral AI 开源 TTS 模型 Voxtral,VentureBeat
- Mistral 杀入语音赛道,TechCrunch
- Voxtral-4B-TTS 发布,X (Twitter)
- Google DeepMind 发布 Gemini 3.1 Flash Live,X (Twitter)
- Google AI 展示语音编程能力,X (Twitter)
- Mistral AI 发布 Voxtral TTS 公告,X (Twitter)
- Cohere 发布开源语音识别模型 Transcribe,X (Twitter)
- Cohere 开源语音转录模型报道,TechCrunch