1亿人的母语,昨天才从AI的"静音模式"里被放出来

100 million speakers,之前算"数据噪声"

先讲个冷知识。

直到昨天,如果你用主流AI问一句阿乔利语(Acholi)的问题——就是那种看起来像这样 "Man nyig kic nyig kic man opye i kom ature" 的文字——模型大概率会告诉你:抱歉,我不理解。

AI配图

这不是因为技术不够。是因为在价值千亿美元的AI训练池里,这1亿人的声音,被标记为了"低资源语言"。

翻译成人话:静音了。

2026年3月13日,Hugging Face的Omar Sanseviero发了一条推文。没有炫目的视频,没有发布会,就一行字:

We open sourced WAXAL!

底下跟了三个数字:

  • 17种语言的TTS(文本转语音)
  • 19种语言的ASR(语音识别)
  • 覆盖40个撒哈拉以南非洲国家超过1亿使用者

就这么简单。但对这个星球上最被忽视的1亿互联网用户来说,这是他们的语言第一次被正式写进AI的词典。

那些像密码一样的文字,是活生生的互联网

点开Hugging Face的页面,你会看到一堆神秘的ID:ach_92443, ach_92493...

ach 是阿乔利语的ISO代码。这种主要在乌干达使用的语言,之前在整个AI语料库里几乎是个幽灵。

AI配图

看看这些真实的标注样本:

"ach_92443 2206 Man nyig kic nyig kic man opye i kom ature ma kalane tye ma yelo nyig kic man tye ka kwanyo moc cam..."

看不懂?没关系。重要的是,这些不是实验室生成的假数据,而是真实的、带性别标注的(Male/Female)、带精确时长的语音转录。是有人在非洲的某个村子里,真的说了这些话,然后被记录下来。

这才是关键点。 我们已经在讨论GPT-5、Gemma 4、AGI什么时候来的时候,地球上还有1亿人连最基本的语音转文字工具都用不上,因为他们的语言"不值得"被标注。

评论区的撕裂:有人要面包,有人要蛋糕

有意思的是,这条推文的评论区,完美演绎了什么叫"AI世界的阶层分化"。

一位叫 theta_ai_takes 的用户一针见血:

"100M speakers, yet these languages were invisible to AI until someone decided they mattered. That's not a technical gap — it's a power gap. The map of AI is drawn by whoever holds the funding."

AI配图

(1亿使用者,但这些语言直到有人觉得它们重要才对AI可见。这不是技术缺口——是权力缺口。AI的地图是由掌握资金的人绘制的。)

而与此同时,热评第一在干什么?

"That's great thanks. But we need gemma 4 ! ... it's been 1 year. Definitely its annoying to wait for gemma 4"

(很好谢谢。但我们需要Gemma 4!都一年了。等Gemma 4真的很烦。)

下面还有人排队:"can we get next gemma mate ?" "Could you also open source Gemma 4? ;)"

说实话,这种对比挺荒诞的。

一边是非洲开发者在欢呼 "This probably one of the best things you've done to advance AI adoption in Africa"(这可能是你们为非洲AI普及做的最好的事之一),另一边是既得利益者在催促下一个大模型。

就像有人在等一辆能开上路的破卡车,旁边却有人在抱怨跑车的颜色选项太少。

开源的另一种算法

当然,催更Gemma 4没错。技术永远要向前。

但WAXAL的出现提醒我们:AI的民主化不是把英语模型做得更大,而是让说阿乔利语、斯瓦希里语、约鲁巴语的人,也能用上语音助手。

katomubirusteve 在评论区说 "We are already testing with the dataset"(我们已经在测试这个数据集了)时,你能感觉到那种急迫感——不是急着追赶AGI,而是急着补上数字基础设施的欠账。

100 million speakers。这个数字比德国人口还多。但在AI的叙事里,他们昨天才刚"上线"。

下一个1亿人在哪?他们还要等多久?

【kimi-k2.5锐评】:当硅谷沉迷于参数竞赛时,WAXAL证明:真正的技术平权,始于承认那1亿人的母语不是"边缘案例"。

参考链接:
https://x.com/osanseviero/status/2032452729059045881