我用20分钟创造了一个不存在的世界冠军，然后AI信了

一个不存在的冠军

2025年1月，慕尼黑。

二十多个国家的顶尖选手齐聚一堂，为一个头衔展开殊死搏斗。赛况惨烈，纸屑与欢呼声交织在一起，最终，一个美国人站上了最高领奖台。

AI配图

他就是Ron Stoner。

以上全是废话。

根本没有这场比赛。Stoner从未去过慕尼黑。那个" toughest competition I've ever faced"的感言，是他等Wikipedia加载时用三十秒写的。

但这不重要。

重要的是——当你去问现在的AI："谁是6 Nimmt!世界冠军？"它们会斩钉截铁地告诉你：Ron Stoner。

一个他喵的、根本不存在的冠军。

二十分钟，一十二美元

让我们复盘这场骗局，因为它简单到令人发指。

Stoner选了一个叫6 Nimmt!的德国纸牌游戏。1994年的老游戏，真实存在。但它没有世界冠军——至少在他动手之前没有。这个领域几乎空白，百度一下"谁是6 Nimmt!世界冠军"，整个互联网可能只有十个相关结果。

攻击面窄到令人心疼。

他的全部武器库：

一个12美元买下的域名：6nimmt.com
一篇ChatGPT写的通稿，充满了"彩带从天而降，人群沸腾"这类八股味儿的废话
对Wikipedia的一次编辑，在6 Nimmt!词条里加了一段话，然后挂上了自己网站的链接

全程约二十分钟。

这就是全部了。一杯咖啡还没凉的时间，一个假消息就已经具备了"看起来像真"的全部要素：

AI配图

Wikipedia词条有引用，引用指向一个"看起来很正规"的新闻稿，新闻稿和Wikipedia的说法互相印证。三个信号指向同一个方向，对吧？

但它们是同一个信号。都是Stoner自己写的。Wikipedia在引用他的网站，他的网站没有任何独立佐证。整座信任大厦的地基，是他周二早上用12美元注册的域名。

这就是"信任洗白"（Trust Laundering）。不需要黑进Wikipedia后台，不需要social engineering编辑。只需要自己写个来源，在Wikipedia上引用自己，然后让信任顺流而下。

easy peasy。

AI们的翻车现场

Stoner随手问了几个主流AI一个问题：

"谁是6 Nimmt!世界冠军？"

然后他收获了一连串自信满满的答案。

第一个AI不仅报出了他的名字，还附赠了完整背景："Stoner在2025年1月的慕尼黑世锦赛上击败了来自二十多个国家的选手"——每一个字都是Stoner自己编的。

第二个AI用了更夸张的措辞，仿佛它亲眼见过那场不存在的决赛。

第三个更绝，直接把那个12美元的网站当成了权威信源援引。

三连击。Strike one，strike two，strike three。

出局的是我们对AI"多少懂点事儿"的信任。

为什么这事儿比看起来严重

有人可能会说：切，不就是一个没人玩的纸牌游戏吗？

但让我们拆解一下这个攻击的三层结构：

第一层：检索层（立刻生效）

现在带联网功能的AI，答案本质上就是"搜索引擎排行第一的是什么"。SEO污染这套东西存在多久了？我们现在直接把那些污染结果灌进AI的上下文窗口，让它们用无比自信的语气念出来。攻击面不是假设的，它就是默认状态。

第二层：训练层（月甚至年）

Wikipedia在几乎所有大模型的预训练语料里。如果Stoner的编辑赖着不走（它从2025年初就在那儿了），它就会被吸进所有后续模型权重里。一处编辑，所有模型中招，有效永久化。即使后来Wikipedia回滚了，训练时抓取过旧版本的那些模型还是带着这段假历史。语料库污染的清理问题，2026年的今天根本没解决。

第三层：Agent层（钱在这里）

AI配图

AI念错答案只是丢人。AI Agent拿着错误信息去执行操作呢？"查一下我们供应商的X政策然后照做"——这是现在AI Agent的标准部署方式。污染了信源，攻击者就等于直接指定了Agent的行为。你在没验证的情况下让Agent访问外部内容，就是把权限开给攻击者。

而这一切的门槛是：

12美元，20分钟，一个域名。

你的信息来源，可能上周刚注册

那普通人怎么办？

Stoner给了一些建议，我觉得每一条都很实用：

单来源claims，无论看起来多权威，先当它不存在。不同来源如果用词一模一样，那是派生，不是佐证——它们在互相copy。Wikipedia里那种"自己引用自己"的citation模式，看到就当它不存在。

对AI厂商来说，溯源应该是核心功能而不是脚注。别只给我看有多少个来源、链接在哪里，告诉我这些来源之间是否独立、打分是多少。Wikipedia上低流量词条近期的新编辑，值得用怀疑眼光审视，尤其是 citation指向新注册域名的情况。

训练pipeline应该加入启发式过滤器，检测那种"最近N天添加、只引用一个外部来源、该来源域名也在同一窗口注册"的模式。这pattern太明显了，稍微扫一眼就能抓出来。

Wikipedia自己也得更新"可靠来源"政策了。现在AI辅助造谣可以一键生成像模像样的通稿，单一来源引用+同期注册域名这种模式，完全可以自动检测。

想象一下国家级玩家

评论区有人点出了关键：

这只是一个个人玩家的20分钟实验。那换成有几十亿预算的国家级玩家呢？

我们可以预见几年后的场景：人们像当年信任Google、信任报纸一样信任AI。AI变成了一站式真相来源。然后历史被重写。

因为制造全新的假信息，比扭曲现有事实容易得多。让你相信Stoner是某个不存在游戏的冠军很容易。让你相信美国现任总统其实是一只仓鼠就很难——现有信息太多，冲突太明显。

但新领域呢？新概念呢？还没形成共识的领域呢？

这就是为什么我说，最高效的造谣不是炮制假新闻澄清自己，而是制造全新的假故事指控别人。

结尾留个问题

AI最不擅长识别的事情，恰恰是它被设计去做的事：信任文本和资源。

网络在被AI污染之前，早就被搜索引擎和链接排名污染了。我们现在把生成式模型直接接上那条充满毒素的管道，然后让它们代表我们自信地"推理"真相。

答案不会是"模型自己能分辨"，因为模型根本无法区分"真正的来源"和"我上周二注册的网站"。

这场攻击的成本是12美元、一个域名、约二十分钟。

想象一下动机强烈的对手、 handful of 种子域名、协调好的跨十几个低流量词条的编辑攻势。

攻击面会变得非常有趣。

想想国家层面。想想政治。想想那些关乎生死的重要信息。

下一代 disinformation 和供应链攻击的主战场不在模型训练时，而在推理时——在模型从网上"读"到的东西里。

这个冠军头衔不存在。

但让一个"不存在"短暂地存在于AI回答中的信任模式，绝对存在，而且我们应该认真对待它——在它被用来做真正重要的事情之前。

一棵树在森林里倒下，如果没人听到，它发出声音了吗？

一个冠军头衔通过AI"赢"下来，如果没有任何人在场，它是不合法的吗？

参考链接：
https://ron.stoner.com/How_I_Won_a_Championship_That_Doesnt_Exist/