说实话,语音识别(ASR)圈子里很久没有这么“炸”的消息了。

就在刚才,阿里 Qwen 团队直接甩出了一套王炸组合拳:Qwen3-ASRQwen3-ForcedAligner

这不是一次普通的模型更新,这简直是在给行业立规矩。

我们先看一组硬碰硬的数据:在内部测试集上,Qwen3-ASR-1.7B 的表现全面碾压了 GPT-4o Transcribe、Gemini 系列、豆包 ASR,以及曾经的开源霸主 Whisper-large-v3。

你没听错,那个被无数开发者奉为圭臬的 Whisper,这次被甩在了身后。

更绝的是,这模型不光能听懂正经人话,连唱跳、Rap、带背景音乐的嘈杂环境,它都能给你扒得干干净净。

AI配图

这哪里是 ASR 模型,简直就是给机器装上了“顺风耳”。

不止是能听,是真能“懂”

现在的 ASR 模型,最大的痛点是什么?不是听不清,是听不懂“乱七八糟”的真实世界。

实验室里的录音室环境太纯净了,现实生活里全是噪音。

Qwen3-ASR 这次就是冲着“ messy, real-world audio ”去的。

它一口气支持了 52 种语言和方言 的自动识别。这里面不仅有 30 种主流语言,还包括 22 种极具挑战性的方言和口音。

ASR Model Performance

有意思的是,官方博客里直接放出了几个“地狱级”难度的测试案例。

比如一段充满了生活暴击的英文音频:背景里有正在演奏的 Mariachi乐队,外面下着暴雨,甚至还有车祸发生和警察执法的声音。这种乱到人类都要听好几遍的音频,Qwen3-ASR 竟然能精准地转录出来,连语气词都没放过。

再看看中文这边,那个著名的绕口令“广西壮族自治区爱吃红鲤鱼与绿鲤鱼与驴的出租车司机……”,Qwen3-ASR 不仅没被绕晕,连标点符号都给你断得明明白白。

甚至,它还能听歌。

不管是中文还是英文的流行歌曲,哪怕背景音乐(BGM)震天响,它也能把歌词扒出来。数据显示,在带 BGM 的全歌转录中,中文 WER(词错误率)只有 13.91%,英文是 14.60%。

这是什么概念?这基本上意味着你可以直接扔给它一首歌,它立马就能给你生成歌词。

我个人觉得,这点对音乐版权和内容创作领域来说,绝对是个神器。

小钢炮也能跑出超跑速度

大家可能觉得,这么强的性能,参数量肯定大得吓人,推理速度慢得离谱。

恰恰相反。

Qwen3 这次非常务实,除了性能怪兽 1.7B 版本,还特意准备了一个 0.6B 的“小钢炮”

这个 0.6B 的版本主打一个“又快又省”。

Qwen3-ASR-0.6B Performance

官方的数据有点夸张:在并发数达到 128 的时候,它的吞吐量能达到 2000 倍

这是什么概念?简单说,就是在在线异步推理模式下,它一小时能转写 5 个小时的语音。

这对于那些需要实时处理海量语音数据的业务来说,简直就是降维打击。

而且,它不需要你为了速度牺牲精度。在多个中英文基准测试中,0.6B 版本依然保持了极高的准确率,同时维持了极低的 RTF(实时率)。

不管是离线批量处理,还是在线实时流式推理,这一个模型全都能搞定。

这种“流式/离线统一推理”的能力,说实话,真的很讨开发者喜欢。不用再为了不同场景部署不同模型,省心又省力。

Efficiency Results

隐藏的杀手锏:强制对齐

除了 ASR 本身,这次还有一个容易被忽略但极其厉害的工具:Qwen3-ForcedAligner

做视频剪辑、字幕组或者语音分析的同学应该懂我的激动。

以前的强制对齐工具,比如 MFA、CTC 或者 WhisperX,要么精度不够,要么支持的语种太少。

Qwen3-ForcedAligner-0.6B 直接把时间戳的预测精度拉到了一个新的高度。

它支持 11 种语言,能在最长 5 分钟的语音里,精准预测任意单元的时间戳。

FA Model Performance

官方给了一个例子,一段 83 秒的英文音频,它能把每一个词,甚至像 "Nvidia" 这种专有名词的起止时间,精确到毫秒级。

这对于视频字幕自动生成、语音驱动的数字人嘴型同步,甚至是语音数据分析来说,都是核心生产力。

这点我不太认同某些人的看法,觉得这只是个附属功能。在我看来,这甚至比 ASR 本身更具商业价值。

开源才是最大的杀手锏

最后,我们聊聊这套组合拳的“杀伤力”。

Qwen3 团队这次不仅开源了模型权重,连全套的推理和微调栈都放出来了。

基于 vLLM 的批量推理、异步服务、流式推理……你能想到的工程化需求,它都给你配齐了。

甚至你都不用写复杂的代码,一行命令就能起一个服务,直接发 HTTP 请求就能用。

这就很有意思了。

AI配图

以前你想用顶级的 ASR 能力,要么调 GPT-4o 这种昂贵的商业 API,要么自己从头训练 Whisper。

现在,Qwen3-ASR 把“商业级”的体验和“开源级”的自由结合在了一起。

这对于那些还在为高昂 API 费用发愁的初创公司,或者对数据隐私敏感的企业来说,无疑是巨大的诱惑。

当 GPT-4o 还在为每一次调用收费时,Qwen3 已经把这套能打能抗的模型扔到了 GitHub 上。

这不仅是技术的胜利,更是开源生态的一次绝地反击。

不知道 OpenAI 和 Google 看到这个模型,会不会觉得后背发凉?

反正,对于开发者来说,今天绝对是个好日子。

GitHub 链接已经放出来了,我觉得你可以去试试了。

github.com/QwenLM/Qwen3-A


本文观点仅代表作者个人,不构成投资建议。

参考链接:
https://x.com/Alibaba_Qwen/status/2016858705917075645