Scale AI 发布 Voice Showdown：首个真实世界语音AI基准测试出炉

标题：当你用印度语问AI问题，它有20%的概率对你讲英语——这就是语音AI的残酷真相

那个"免费"的陷阱，终于有人拆穿了

想象一下：你刚下载了一个App，突然发现能免费使用GPT-4o、Gemini、Grok这些每月要花几十美元才能碰的顶级语音模型。没有订阅，没有广告，随便聊。

听起来像做梦？Scale AI就这么干了。但别急着欢呼，这份"免费午餐"有个隐秘的代价——你每聊20句，就可能突然被拉进一场盲测决斗，被迫选出哪个AI的声音更不像机器人。

这就是Voice Showdown，全球第一个基于真实人类偏好的语音AI竞技场。而首批数据显示的结果，足以让OpenAI的工程师脸红。

实验室里的冠军，在现实世界裸泳

说实话，我们已经被各种"史上最强语音模型"的发布会搞麻木了。OpenAI的GPT-4o、Google的Gemini、xAI的Grok，每个都声称自己听懂了人类。

但Scale AI的测试撕开了遮羞布：现有基准测试全是假的。

它们用合成语音，在安静的实验室里，让AI回答有标准答案的问题。而Voice Showdown玩的是另一套——60多种语言，真实的背景噪音，突然插话的口音，还有那些根本没有正确答案的闲聊。81%的测试对话都是开放式的，就像你和朋友在酒吧里的瞎扯。

结果呢？有些模型的底裤掉了。

GPT Realtime 1.5，OpenAI最新的实时语音模型，面对非英语提问时，有20%的概率直接用英语回答。不是听错，不是卡顿，是干脆无视你的语言，开启"英语霸权"模式。哪怕你说的是西班牙语、印地语或土耳其语——这些所谓"高资源语言"。

更荒诞的是，它还会给说尼日利亚方言的用户推荐"心理健康援助"，因为它觉得对方"语无伦次"。而阿里的Qwen 3 Omni反而听懂了。

"I said I have an interview today with Quest Management and instead of answering, it gave me information about 'Risk Management.'"

这是用户的原话。你看，现实永远比剧本更离奇。

排行榜上的暗战：Gemini霸榜，但Grok在偷笑

来看看这份让硅谷坐立不安的榜单。

在语音输入、文本输出（Dictate）模式里，Google的Gemini 3 Pro和Gemini 3 Flash霸占了前两名，把GPT-4o Audio挤到了第三。OpenAI的GPT Realtime甚至排到了第七，连开源的Gemma 3n都打不过。

+vs+GPT-4o+Audio+(1019))

但真正的好戏在语音对语音（S2S）战场。这里Gemini 2.5 Flash Audio和GPT-4o Audio打了个平手，并列第一。可一旦调整响应长度和格式这些"花招"因素，GPT-4o Audio就窜到了1102分，甩开Gemini。

最有趣的是Grok Voice。表面上看它排第三，但去掉那些华而不实的包装后，它的真实质量跃升到第二（1093分）。xAI这波属于闷声发大财。

而Qwen 3 Omni，这个来自阿里巴巴的开源模型，在两种模式下都稳居第四，把一票大牌甩在身后。Scale的产品经理Janie Gu说得直白："人们进来都选大牌，但比真实偏好，像Qwen这种低调的家伙反而赢。"

我个人觉得，这挺打脸的。我们总以为贵的就是好的，结果一个免费开源模型在听人说话这件事上，比某些每月收你20刀的模型更懂礼貌。

同一个AI，换副嗓子就蠢了30%

Voice Showdown还揭露了一个行业不愿提的秘密：声音本身决定智商。

测试发现，对某个未具名模型来说，它最好的声音和最烂的声音，胜率能差出30个百分点。同样的脑子，换副嗓子，用户就觉得你变笨了。

这解释了为什么有些AI明明推理能力不错，你就是觉得"不对劲"。Qwen 3 Omni输就输在声音生成上——它听得懂，想得对，但一开口就把用户劝退。

反过来，GPT Realtime 1.5赢在声音好听，输在耳朵不好。51%的失败都是因为听不懂人话，尤其是在对话超过11轮之后，内容质量崩得像过山车。

有意思的是，**短语音（10秒内）失败主要是因为听不清（38%的音频理解错误），而长语音（40秒以上）**失败则是因为答不好（31%的内容质量问题）。AI要么聋，要么傻，很少能两全。

那个还没到来的终极大考

AI配图

现在这些测试其实还留了手。

目前的Voice Showdown是"轮流制"——你说完它说，像打电报。但真实的人类对话是什么？是打断，是抢话，是说到一半突然"哎不对我是说..."。

Scale AI预告下一步要测Full Duplex（全双工）——真正的实时打断，真正的混乱对话。目前还没有任何基准测试能 capture 这种 organic 的混乱。

所以现在的 leaderboard 其实是个半成品。那些在整洁轮次里表现优异的模型，可能在真正的"插话地狱"里原形毕露。

免费的代价，是成为裁判

回到那个"免费使用顶级模型"的诱饵。Scale AI这招挺狠的——它用免费访问权，换取了人类最真实的偏好数据。每次你投票后，系统会把你切换到赢的那一方继续聊，这确保了你不会乱投。

30万 annotator，60多种语言，真实的背景噪音和口音——这套数据比任何实验室测试都值钱。它告诉我们：语音AI的护城河不是参数多少，而是能不能在尼日利亚的街头、东京的地铁、墨西哥的集市里，听懂那些不完美的声音。

AI配图

当GPT Realtime 1.5对着印地语用户说英语时，它暴露的不是技术缺陷，而是AI世界根深蒂固的偏见——我们仍然以英语为中心构建一切，然后假装自己懂全球语言。

所以下次当你听到某个语音AI宣称"支持多语言"时，不妨问问：它是在支持，还是在忍耐？

AI配图

而那个真正能在你打断它、背景有狗叫、还带着家乡口音时依然听懂你的AI，可能还没出生。

【kimi-k2.5锐评】：Scale AI这招"以免费换数据"堪称阳谋典范，既戳破了语音AI"多语言支持"的纸面繁荣，也暴露了大厂模型在真实世界里的"英语霸权"惯性——当GPT-4o和Gemini在排行榜上打得火热时，真正该警惕的是那个20%的"语言失聪"率，毕竟听不懂人话的AI，再流畅也只是个漂亮的聋子。

参考链接：
https://venturebeat.com/data/scale-ai-launches-voice-showdown-the-first-real-world-benchmark-for-voice-ai