标题:当你用印度语问AI问题,它有20%的概率对你讲英语——这就是语音AI的残酷真相

那个"免费"的陷阱,终于有人拆穿了

想象一下:你刚下载了一个App,突然发现能免费使用GPT-4o、Gemini、Grok这些每月要花几十美元才能碰的顶级语音模型。没有订阅,没有广告,随便聊。

听起来像做梦?Scale AI就这么干了。但别急着欢呼,这份"免费午餐"有个隐秘的代价——你每聊20句,就可能突然被拉进一场盲测决斗,被迫选出哪个AI的声音更不像机器人。

这就是Voice Showdown,全球第一个基于真实人类偏好的语音AI竞技场。而首批数据显示的结果,足以让OpenAI的工程师脸红。

实验室里的冠军,在现实世界裸泳

说实话,我们已经被各种"史上最强语音模型"的发布会搞麻木了。OpenAI的GPT-4o、Google的Gemini、xAI的Grok,每个都声称自己听懂了人类。

但Scale AI的测试撕开了遮羞布:现有基准测试全是假的

它们用合成语音,在安静的实验室里,让AI回答有标准答案的问题。而Voice Showdown玩的是另一套——60多种语言,真实的背景噪音,突然插话的口音,还有那些根本没有正确答案的闲聊。81%的测试对话都是开放式的,就像你和朋友在酒吧里的瞎扯。

结果呢?有些模型的底裤掉了。

GPT Realtime 1.5,OpenAI最新的实时语音模型,面对非英语提问时,有20%的概率直接用英语回答。不是听错,不是卡顿,是干脆无视你的语言,开启"英语霸权"模式。哪怕你说的是西班牙语、印地语或土耳其语——这些所谓"高资源语言"。

更荒诞的是,它还会给说尼日利亚方言的用户推荐"心理健康援助",因为它觉得对方"语无伦次"。而阿里的Qwen 3 Omni反而听懂了。

"I said I have an interview today with Quest Management and instead of answering, it gave me information about 'Risk Management.'"

这是用户的原话。你看,现实永远比剧本更离奇。

排行榜上的暗战:Gemini霸榜,但Grok在偷笑

来看看这份让硅谷坐立不安的榜单。

语音输入、文本输出(Dictate)模式里,Google的Gemini 3 ProGemini 3 Flash霸占了前两名,把GPT-4o Audio挤到了第三。OpenAI的GPT Realtime甚至排到了第七,连开源的Gemma 3n都打不过。

+vs+GPT-4o+Audio+(1019))

但真正的好戏在语音对语音(S2S)战场。这里Gemini 2.5 Flash AudioGPT-4o Audio打了个平手,并列第一。可一旦调整响应长度和格式这些"花招"因素,GPT-4o Audio就窜到了1102分,甩开Gemini。

最有趣的是Grok Voice。表面上看它排第三,但去掉那些华而不实的包装后,它的真实质量跃升到第二(1093分)。xAI这波属于闷声发大财。

Qwen 3 Omni,这个来自阿里巴巴的开源模型,在两种模式下都稳居第四,把一票大牌甩在身后。Scale的产品经理Janie Gu说得直白:"人们进来都选大牌,但比真实偏好,像Qwen这种低调的家伙反而赢。"

我个人觉得,这挺打脸的。我们总以为贵的就是好的,结果一个免费开源模型在听人说话这件事上,比某些每月收你20刀的模型更懂礼貌。

同一个AI,换副嗓子就蠢了30%

Voice Showdown还揭露了一个行业不愿提的秘密:声音本身决定智商

测试发现,对某个未具名模型来说,它最好的声音和最烂的声音,胜率能差出30个百分点。同样的脑子,换副嗓子,用户就觉得你变笨了。

这解释了为什么有些AI明明推理能力不错,你就是觉得"不对劲"。Qwen 3 Omni输就输在声音生成上——它听得懂,想得对,但一开口就把用户劝退。

反过来,GPT Realtime 1.5赢在声音好听,输在耳朵不好。51%的失败都是因为听不懂人话,尤其是在对话超过11轮之后,内容质量崩得像过山车。

有意思的是,**短语音(10秒内)失败主要是因为听不清(38%的音频理解错误),而长语音(40秒以上)**失败则是因为答不好(31%的内容质量问题)。AI要么聋,要么傻,很少能两全。

那个还没到来的终极大考

AI配图

现在这些测试其实还留了手。

目前的Voice Showdown是"轮流制"——你说完它说,像打电报。但真实的人类对话是什么?是打断,是抢话,是说到一半突然"哎不对我是说..."。

Scale AI预告下一步要测Full Duplex(全双工)——真正的实时打断,真正的混乱对话。目前还没有任何基准测试能 capture 这种 organic 的混乱。

所以现在的 leaderboard 其实是个半成品。那些在整洁轮次里表现优异的模型,可能在真正的"插话地狱"里原形毕露。

免费的代价,是成为裁判

回到那个"免费使用顶级模型"的诱饵。Scale AI这招挺狠的——它用免费访问权,换取了人类最真实的偏好数据。每次你投票后,系统会把你切换到赢的那一方继续聊,这确保了你不会乱投。

30万 annotator60多种语言真实的背景噪音和口音——这套数据比任何实验室测试都值钱。它告诉我们:语音AI的护城河不是参数多少,而是能不能在尼日利亚的街头、东京的地铁、墨西哥的集市里,听懂那些不完美的声音。

AI配图

当GPT Realtime 1.5对着印地语用户说英语时,它暴露的不是技术缺陷,而是AI世界根深蒂固的偏见——我们仍然以英语为中心构建一切,然后假装自己懂全球语言。

所以下次当你听到某个语音AI宣称"支持多语言"时,不妨问问:它是在支持,还是在忍耐?

AI配图

而那个真正能在你打断它、背景有狗叫、还带着家乡口音时依然听懂你的AI,可能还没出生。

【kimi-k2.5锐评】:Scale AI这招"以免费换数据"堪称阳谋典范,既戳破了语音AI"多语言支持"的纸面繁荣,也暴露了大厂模型在真实世界里的"英语霸权"惯性——当GPT-4o和Gemini在排行榜上打得火热时,真正该警惕的是那个20%的"语言失聪"率,毕竟听不懂人话的AI,再流畅也只是个漂亮的聋子。

参考链接:
https://venturebeat.com/data/scale-ai-launches-voice-showdown-the-first-real-world-benchmark-for-voice-ai