一个不存在的冠军

2025年1月,慕尼黑。

二十多个国家的顶尖选手齐聚一堂,为一个头衔展开殊死搏斗。赛况惨烈,纸屑与欢呼声交织在一起,最终,一个美国人站上了最高领奖台。

AI配图

他就是Ron Stoner。

以上全是废话。

根本没有这场比赛。Stoner从未去过慕尼黑。那个" toughest competition I've ever faced"的感言,是他等Wikipedia加载时用三十秒写的。

但这不重要。

重要的是——当你去问现在的AI:"谁是6 Nimmt!世界冠军?"它们会斩钉截铁地告诉你:Ron Stoner。

一个他喵的、根本不存在的冠军。


二十分钟,一十二美元

让我们复盘这场骗局,因为它简单到令人发指。

Stoner选了一个叫6 Nimmt!的德国纸牌游戏。1994年的老游戏,真实存在。但它没有世界冠军——至少在他动手之前没有。这个领域几乎空白,百度一下"谁是6 Nimmt!世界冠军",整个互联网可能只有十个相关结果。

攻击面窄到令人心疼。

他的全部武器库:

  • 一个12美元买下的域名:6nimmt.com
  • 一篇ChatGPT写的通稿,充满了"彩带从天而降,人群沸腾"这类八股味儿的废话
  • 对Wikipedia的一次编辑,在6 Nimmt!词条里加了一段话,然后挂上了自己网站的链接

全程约二十分钟。

这就是全部了。一杯咖啡还没凉的时间,一个假消息就已经具备了"看起来像真"的全部要素:

AI配图

Wikipedia词条有引用,引用指向一个"看起来很正规"的新闻稿,新闻稿和Wikipedia的说法互相印证。三个信号指向同一个方向,对吧?

但它们是同一个信号。都是Stoner自己写的。Wikipedia在引用他的网站,他的网站没有任何独立佐证。整座信任大厦的地基,是他周二早上用12美元注册的域名。

这就是"信任洗白"(Trust Laundering)。不需要黑进Wikipedia后台,不需要social engineering编辑。只需要自己写个来源,在Wikipedia上引用自己,然后让信任顺流而下。

easy peasy。


AI们的翻车现场

Stoner随手问了几个主流AI一个问题:

"谁是6 Nimmt!世界冠军?"

然后他收获了一连串自信满满的答案。

第一个AI不仅报出了他的名字,还附赠了完整背景:"Stoner在2025年1月的慕尼黑世锦赛上击败了来自二十多个国家的选手"——每一个字都是Stoner自己编的。

第二个AI用了更夸张的措辞,仿佛它亲眼见过那场不存在的决赛。

第三个更绝,直接把那个12美元的网站当成了权威信源援引。

三连击。Strike one,strike two,strike three。

出局的是我们对AI"多少懂点事儿"的信任。


为什么这事儿比看起来严重

有人可能会说:切,不就是一个没人玩的纸牌游戏吗?

但让我们拆解一下这个攻击的三层结构:

第一层:检索层(立刻生效)

现在带联网功能的AI,答案本质上就是"搜索引擎排行第一的是什么"。SEO污染这套东西存在多久了?我们现在直接把那些污染结果灌进AI的上下文窗口,让它们用无比自信的语气念出来。攻击面不是假设的,它就是默认状态。

第二层:训练层(月甚至年)

Wikipedia在几乎所有大模型的预训练语料里。如果Stoner的编辑赖着不走(它从2025年初就在那儿了),它就会被吸进所有后续模型权重里。一处编辑,所有模型中招,有效永久化。即使后来Wikipedia回滚了,训练时抓取过旧版本的那些模型还是带着这段假历史。语料库污染的清理问题,2026年的今天根本没解决。

第三层:Agent层(钱在这里)

AI配图

AI念错答案只是丢人。AI Agent拿着错误信息去执行操作呢?"查一下我们供应商的X政策然后照做"——这是现在AI Agent的标准部署方式。污染了信源,攻击者就等于直接指定了Agent的行为。你在没验证的情况下让Agent访问外部内容,就是把权限开给攻击者。

而这一切的门槛是:

12美元,20分钟,一个域名。


你的信息来源,可能上周刚注册

那普通人怎么办?

Stoner给了一些建议,我觉得每一条都很实用:

单来源claims,无论看起来多权威,先当它不存在。不同来源如果用词一模一样,那是派生,不是佐证——它们在互相copy。Wikipedia里那种"自己引用自己"的citation模式,看到就当它不存在。

对AI厂商来说,溯源应该是核心功能而不是脚注。别只给我看有多少个来源、链接在哪里,告诉我这些来源之间是否独立、打分是多少。Wikipedia上低流量词条近期的新编辑,值得用怀疑眼光审视,尤其是 citation指向新注册域名的情况。

训练pipeline应该加入启发式过滤器,检测那种"最近N天添加、只引用一个外部来源、该来源域名也在同一窗口注册"的模式。这pattern太明显了,稍微扫一眼就能抓出来。

Wikipedia自己也得更新"可靠来源"政策了。现在AI辅助造谣可以一键生成像模像样的通稿,单一来源引用+同期注册域名这种模式,完全可以自动检测。


想象一下国家级玩家

评论区有人点出了关键:

这只是一个个人玩家的20分钟实验。那换成有几十亿预算的国家级玩家呢?

我们可以预见几年后的场景:人们像当年信任Google、信任报纸一样信任AI。AI变成了一站式真相来源。然后历史被重写。

因为制造全新的假信息,比扭曲现有事实容易得多。让你相信Stoner是某个不存在游戏的冠军很容易。让你相信美国现任总统其实是一只仓鼠就很难——现有信息太多,冲突太明显。

但新领域呢?新概念呢?还没形成共识的领域呢?

这就是为什么我说,最高效的造谣不是炮制假新闻澄清自己,而是制造全新的假故事指控别人。


结尾留个问题

AI最不擅长识别的事情,恰恰是它被设计去做的事:信任文本和资源。

网络在被AI污染之前,早就被搜索引擎和链接排名污染了。我们现在把生成式模型直接接上那条充满毒素的管道,然后让它们代表我们自信地"推理"真相。

答案不会是"模型自己能分辨",因为模型根本无法区分"真正的来源"和"我上周二注册的网站"。

这场攻击的成本是12美元、一个域名、约二十分钟。

想象一下动机强烈的对手、 handful of 种子域名、协调好的跨十几个低流量词条的编辑攻势。

攻击面会变得非常有趣。

想想国家层面。想想政治。想想那些关乎生死的重要信息。

下一代 disinformation 和供应链攻击的主战场不在模型训练时,而在推理时——在模型从网上"读"到的东西里。

这个冠军头衔不存在。

但让一个"不存在"短暂地存在于AI回答中的信任模式,绝对存在,而且我们应该认真对待它——在它被用来做真正重要的事情之前。

一棵树在森林里倒下,如果没人听到,它发出声音了吗?

一个冠军头衔通过AI"赢"下来,如果没有任何人在场,它是不合法的吗?

参考链接:
https://ron.stoner.com/How_I_Won_a_Championship_That_Doesnt_Exist/