吊打GPT-4o？阿里Qwen3炸场开源，52种方言连唱带跳全拿下

说实话，语音识别（ASR）圈子里很久没有这么“炸”的消息了。

就在刚才，阿里 Qwen 团队直接甩出了一套王炸组合拳：Qwen3-ASR 和 Qwen3-ForcedAligner。

这不是一次普通的模型更新，这简直是在给行业立规矩。

我们先看一组硬碰硬的数据：在内部测试集上，Qwen3-ASR-1.7B 的表现全面碾压了 GPT-4o Transcribe、Gemini 系列、豆包 ASR，以及曾经的开源霸主 Whisper-large-v3。

你没听错，那个被无数开发者奉为圭臬的 Whisper，这次被甩在了身后。

更绝的是，这模型不光能听懂正经人话，连唱跳、Rap、带背景音乐的嘈杂环境，它都能给你扒得干干净净。

AI配图

这哪里是 ASR 模型，简直就是给机器装上了“顺风耳”。

不止是能听，是真能“懂”

现在的 ASR 模型，最大的痛点是什么？不是听不清，是听不懂“乱七八糟”的真实世界。

实验室里的录音室环境太纯净了，现实生活里全是噪音。

Qwen3-ASR 这次就是冲着“ messy, real-world audio ”去的。

它一口气支持了 52 种语言和方言 的自动识别。这里面不仅有 30 种主流语言，还包括 22 种极具挑战性的方言和口音。

ASR Model Performance

有意思的是，官方博客里直接放出了几个“地狱级”难度的测试案例。

比如一段充满了生活暴击的英文音频：背景里有正在演奏的 Mariachi乐队，外面下着暴雨，甚至还有车祸发生和警察执法的声音。这种乱到人类都要听好几遍的音频，Qwen3-ASR 竟然能精准地转录出来，连语气词都没放过。

再看看中文这边，那个著名的绕口令“广西壮族自治区爱吃红鲤鱼与绿鲤鱼与驴的出租车司机……”，Qwen3-ASR 不仅没被绕晕，连标点符号都给你断得明明白白。

甚至，它还能听歌。

不管是中文还是英文的流行歌曲，哪怕背景音乐（BGM）震天响，它也能把歌词扒出来。数据显示，在带 BGM 的全歌转录中，中文 WER（词错误率）只有 13.91%，英文是 14.60%。

这是什么概念？这基本上意味着你可以直接扔给它一首歌，它立马就能给你生成歌词。

我个人觉得，这点对音乐版权和内容创作领域来说，绝对是个神器。

小钢炮也能跑出超跑速度

大家可能觉得，这么强的性能，参数量肯定大得吓人，推理速度慢得离谱。

恰恰相反。

Qwen3 这次非常务实，除了性能怪兽 1.7B 版本，还特意准备了一个 0.6B 的“小钢炮”。

这个 0.6B 的版本主打一个“又快又省”。

Qwen3-ASR-0.6B Performance

官方的数据有点夸张：在并发数达到 128 的时候，它的吞吐量能达到 2000 倍。

这是什么概念？简单说，就是在在线异步推理模式下，它一小时能转写 5 个小时的语音。

这对于那些需要实时处理海量语音数据的业务来说，简直就是降维打击。

而且，它不需要你为了速度牺牲精度。在多个中英文基准测试中，0.6B 版本依然保持了极高的准确率，同时维持了极低的 RTF（实时率）。

不管是离线批量处理，还是在线实时流式推理，这一个模型全都能搞定。

这种“流式/离线统一推理”的能力，说实话，真的很讨开发者喜欢。不用再为了不同场景部署不同模型，省心又省力。

Efficiency Results

隐藏的杀手锏：强制对齐

除了 ASR 本身，这次还有一个容易被忽略但极其厉害的工具：Qwen3-ForcedAligner。

做视频剪辑、字幕组或者语音分析的同学应该懂我的激动。

以前的强制对齐工具，比如 MFA、CTC 或者 WhisperX，要么精度不够，要么支持的语种太少。

Qwen3-ForcedAligner-0.6B 直接把时间戳的预测精度拉到了一个新的高度。

它支持 11 种语言，能在最长 5 分钟的语音里，精准预测任意单元的时间戳。

FA Model Performance

官方给了一个例子，一段 83 秒的英文音频，它能把每一个词，甚至像 "Nvidia" 这种专有名词的起止时间，精确到毫秒级。

这对于视频字幕自动生成、语音驱动的数字人嘴型同步，甚至是语音数据分析来说，都是核心生产力。

这点我不太认同某些人的看法，觉得这只是个附属功能。在我看来，这甚至比 ASR 本身更具商业价值。

开源才是最大的杀手锏

最后，我们聊聊这套组合拳的“杀伤力”。

Qwen3 团队这次不仅开源了模型权重，连全套的推理和微调栈都放出来了。

基于 vLLM 的批量推理、异步服务、流式推理……你能想到的工程化需求，它都给你配齐了。

甚至你都不用写复杂的代码，一行命令就能起一个服务，直接发 HTTP 请求就能用。

这就很有意思了。

AI配图

以前你想用顶级的 ASR 能力，要么调 GPT-4o 这种昂贵的商业 API，要么自己从头训练 Whisper。

现在，Qwen3-ASR 把“商业级”的体验和“开源级”的自由结合在了一起。

这对于那些还在为高昂 API 费用发愁的初创公司，或者对数据隐私敏感的企业来说，无疑是巨大的诱惑。

当 GPT-4o 还在为每一次调用收费时，Qwen3 已经把这套能打能抗的模型扔到了 GitHub 上。

这不仅是技术的胜利，更是开源生态的一次绝地反击。

不知道 OpenAI 和 Google 看到这个模型，会不会觉得后背发凉？

反正，对于开发者来说，今天绝对是个好日子。

GitHub 链接已经放出来了，我觉得你可以去试试了。

github.com/QwenLM/Qwen3-A

本文观点仅代表作者个人，不构成投资建议。

参考链接：
https://x.com/Alibaba_Qwen/status/2016858705917075645