说实话,语音识别(ASR)圈子里很久没有这么“炸”的消息了。
就在刚才,阿里 Qwen 团队直接甩出了一套王炸组合拳:Qwen3-ASR 和 Qwen3-ForcedAligner。
这不是一次普通的模型更新,这简直是在给行业立规矩。
我们先看一组硬碰硬的数据:在内部测试集上,Qwen3-ASR-1.7B 的表现全面碾压了 GPT-4o Transcribe、Gemini 系列、豆包 ASR,以及曾经的开源霸主 Whisper-large-v3。
你没听错,那个被无数开发者奉为圭臬的 Whisper,这次被甩在了身后。
更绝的是,这模型不光能听懂正经人话,连唱跳、Rap、带背景音乐的嘈杂环境,它都能给你扒得干干净净。
这哪里是 ASR 模型,简直就是给机器装上了“顺风耳”。
不止是能听,是真能“懂”
现在的 ASR 模型,最大的痛点是什么?不是听不清,是听不懂“乱七八糟”的真实世界。
实验室里的录音室环境太纯净了,现实生活里全是噪音。
Qwen3-ASR 这次就是冲着“ messy, real-world audio ”去的。
它一口气支持了 52 种语言和方言 的自动识别。这里面不仅有 30 种主流语言,还包括 22 种极具挑战性的方言和口音。
有意思的是,官方博客里直接放出了几个“地狱级”难度的测试案例。
比如一段充满了生活暴击的英文音频:背景里有正在演奏的 Mariachi乐队,外面下着暴雨,甚至还有车祸发生和警察执法的声音。这种乱到人类都要听好几遍的音频,Qwen3-ASR 竟然能精准地转录出来,连语气词都没放过。
再看看中文这边,那个著名的绕口令“广西壮族自治区爱吃红鲤鱼与绿鲤鱼与驴的出租车司机……”,Qwen3-ASR 不仅没被绕晕,连标点符号都给你断得明明白白。
甚至,它还能听歌。
不管是中文还是英文的流行歌曲,哪怕背景音乐(BGM)震天响,它也能把歌词扒出来。数据显示,在带 BGM 的全歌转录中,中文 WER(词错误率)只有 13.91%,英文是 14.60%。
这是什么概念?这基本上意味着你可以直接扔给它一首歌,它立马就能给你生成歌词。
我个人觉得,这点对音乐版权和内容创作领域来说,绝对是个神器。
小钢炮也能跑出超跑速度
大家可能觉得,这么强的性能,参数量肯定大得吓人,推理速度慢得离谱。
恰恰相反。
Qwen3 这次非常务实,除了性能怪兽 1.7B 版本,还特意准备了一个 0.6B 的“小钢炮”。
这个 0.6B 的版本主打一个“又快又省”。
官方的数据有点夸张:在并发数达到 128 的时候,它的吞吐量能达到 2000 倍。
这是什么概念?简单说,就是在在线异步推理模式下,它一小时能转写 5 个小时的语音。
这对于那些需要实时处理海量语音数据的业务来说,简直就是降维打击。
而且,它不需要你为了速度牺牲精度。在多个中英文基准测试中,0.6B 版本依然保持了极高的准确率,同时维持了极低的 RTF(实时率)。
不管是离线批量处理,还是在线实时流式推理,这一个模型全都能搞定。
这种“流式/离线统一推理”的能力,说实话,真的很讨开发者喜欢。不用再为了不同场景部署不同模型,省心又省力。
隐藏的杀手锏:强制对齐
除了 ASR 本身,这次还有一个容易被忽略但极其厉害的工具:Qwen3-ForcedAligner。
做视频剪辑、字幕组或者语音分析的同学应该懂我的激动。
以前的强制对齐工具,比如 MFA、CTC 或者 WhisperX,要么精度不够,要么支持的语种太少。
Qwen3-ForcedAligner-0.6B 直接把时间戳的预测精度拉到了一个新的高度。
它支持 11 种语言,能在最长 5 分钟的语音里,精准预测任意单元的时间戳。
官方给了一个例子,一段 83 秒的英文音频,它能把每一个词,甚至像 "Nvidia" 这种专有名词的起止时间,精确到毫秒级。
这对于视频字幕自动生成、语音驱动的数字人嘴型同步,甚至是语音数据分析来说,都是核心生产力。
这点我不太认同某些人的看法,觉得这只是个附属功能。在我看来,这甚至比 ASR 本身更具商业价值。
开源才是最大的杀手锏
最后,我们聊聊这套组合拳的“杀伤力”。
Qwen3 团队这次不仅开源了模型权重,连全套的推理和微调栈都放出来了。
基于 vLLM 的批量推理、异步服务、流式推理……你能想到的工程化需求,它都给你配齐了。
甚至你都不用写复杂的代码,一行命令就能起一个服务,直接发 HTTP 请求就能用。
这就很有意思了。
以前你想用顶级的 ASR 能力,要么调 GPT-4o 这种昂贵的商业 API,要么自己从头训练 Whisper。
现在,Qwen3-ASR 把“商业级”的体验和“开源级”的自由结合在了一起。
这对于那些还在为高昂 API 费用发愁的初创公司,或者对数据隐私敏感的企业来说,无疑是巨大的诱惑。
当 GPT-4o 还在为每一次调用收费时,Qwen3 已经把这套能打能抗的模型扔到了 GitHub 上。
这不仅是技术的胜利,更是开源生态的一次绝地反击。
不知道 OpenAI 和 Google 看到这个模型,会不会觉得后背发凉?
反正,对于开发者来说,今天绝对是个好日子。
GitHub 链接已经放出来了,我觉得你可以去试试了。
github.com/QwenLM/Qwen3-A
本文观点仅代表作者个人,不构成投资建议。
参考链接:
https://x.com/Alibaba_Qwen/status/2016858705917075645