为了防 AI，新闻界正在亲手埋葬互联网的历史

这听起来像个黑色幽默。

为了保护自己的内容不被 AI 公司“偷走”，全球顶尖的新闻机构正在做一件事：封杀互联网档案馆。

你没听错，那个致力于“普及所有知识”、保存了超过一万亿个网页快照的非营利组织，现在成了新闻界的“眼中钉”。

《卫报》、《纽约时报》、Reddit，甚至美国最大的报业集团 Gannett，都在最近几个月里，纷纷举起了大棒，把互联网档案馆的爬虫拒之门外。理由很硬核：他们怕 AI 公司通过档案馆“后门”偷数据。

但说实话，这操作怎么看怎么像是为了防小偷，把自己家的图书馆给烧了。

被误伤的“好人”

这事儿闹得挺大，但起因其实很简单。

AI配图

《卫报》的商业事务主管 Robert Hahn 最近在查看后台日志时发现，互联网档案馆的爬虫来得太频繁了。这让他心里一紧。

他担心的不是档案馆本身，而是那些饥渴的 AI 公司。

“很多 AI 企业都在寻找现成的、结构化的内容数据库，” Hahn 说，“互联网档案馆的 API 显然就是那个让他们插上管子、把知识产权吸干的地方。”虽然 Hahn 也承认，Wayback Machine 本身因为数据没那么结构化，风险还算小。但为了保险起见，《卫报》还是决定动手了。

他们没直接切断所有联系，但干了一件很微妙的事：把自家的文章页面从 Wayback Machine 的 URL 接口里过滤掉了。

也就是说，以后你想在 Wayback Machine 里看《卫报》的历史报道？大概率是看不到了。

《纽约时报》更狠，直接来了个“硬封锁”。他们在 2025 年底直接把互联网档案馆的爬虫写进了 robots.txt 文件，明令禁止访问。> “我们相信《纽约时报》以人为本的新闻价值……我们要确保 IP 被合法访问。” 发言人的话冠冕堂皇，潜台词很明显：Wayback Machine 提供了不受限制的访问，包括给那些没授权的 AI 公司。

这就有意思了。互联网档案馆一直被认为是互联网世界的“好人”，是数字文明的诺亚方舟。但在 AI 带来的版权恐慌面前，好人也成了 collateral damage（附带伤害）。

这是一场连坐如果你觉得这只是几家大厂的矫情，那你就太小看这场风波了。

Nieman Lab 搞了个调查，扒了 1167 家新闻网站的 robots.txt 文件。结果吓一跳：有 241 家新闻网站明确封杀了至少一种互联网档案馆的爬虫。

这里面最积极的是谁？美国最大的报业集团 Gannett（也就是今日美国 USA Today 的母公司）。

数据不会撒谎。在这 241 家“拉黑”档案馆的网站里，87% 都是 Gannett 旗下的。他们在 2025 年集体把 archive.org_bot 等爬虫加入了黑名单。Gannett 的 CEO Mike Reed 在去年 9 月的财报电话会上可是相当得意。

“光 9 月份，我们就拦截了 7500 万个 AI 机器人，” 他说，“其中 7000 万个来自 OpenAI。”

你看，为了防 OpenAI，他们把互联网档案馆也一并堵在了门外。

AI配图

这就好比为了防贼进屋偷东西，把所有窗户都封死，连送快递的也不让进了。

甚至 Reddit 也凑热闹。去年 8 月，Reddit 宣布封杀互联网档案馆。理由很“正当”：有 AI 公司违反平台政策，专门从 Wayback Machine 里抓取 Reddit 的评论和帖子。Reddit 现在把这些数据卖给 Google 赚几千万美元，当然不希望别人通过档案馆“免费”拿走。

曾经把服务器干崩的疯狂往事

新闻界的担忧是空穴来风吗？倒也不全是。

互联网档案馆确实因为 AI 公司吃过亏。

早在 2023 年 5 月，档案馆就因为一家 AI 公司的疯狂抓取而被迫宕机。Wayback Machine 的总监 Mark Graham 回忆说，那家公司从 AWS 的虚拟主机上每秒发送数万个请求，只想干一件事：**把档案馆公共领域里的文本数据全扒走。**最后怎么解决的？档案馆封了对方两次 IP，对方道了歉，还捐了一笔钱。

“那些想要批量使用我们材料的人，动作慢点，循序渐进，” 创始人 Brewster Kahle 当时还在博客里好言相劝，“如果你们要搞大项目，请联系我们……我们是来帮忙的。”

但这显然没能阻止 AI 公司的贪婪。

有分析显示，Google 的 C4 数据集（用来训练 T5 和 Llama 模型的那个）里，互联网档案馆的域名是排名第 187 位的最大数据源。AI 公司确实在“喝”档案馆的血。

谁才是真正的输家？

现在的问题是，新闻机构这种“宁可错杀一千，不可放过一个”的做法，真的能防住 AI 吗？

我个人觉得，这更像是一种自我安慰。

正如有评论指出的那样，AI 公司如果真想抓，根本不会在乎 robots.txt。他们会用住宅代理，换着 IP 来抓。结果就是，新闻网站的服务器压力更大了，成本更高了，而 AI 公司还是拿到了数据。

唯一的输家是谁？是普通公众，是研究者，是那些依赖互联网档案馆来查阅历史记录的人。

有一位叫 Michael Nelson 的计算机科学家说得很扎心：

“Common Crawl 和互联网档案馆被广泛认为是‘好人’，却被像 OpenAI 这样的‘坏人’利用。在大家不想被 LLM 控制的厌恶情绪中，我觉得好人成了附带伤害。”

AI配图

更深层的问题在于，我们正在失去互联网的“共同记忆层”。

有合规专家指出，像 SOC 2 和 HIPAA 这样的监管框架，要求必须有审计线索和证据留存。很多证据就存在于 URL 里。如果一个新闻网站删了一篇报道，而档案馆里也没有了，那这个审计线索就断了。> “如果互联网的大部分内容变得故意不可存档，我们就会慢慢失去共享的记忆层。” 这不是危言耸听，这是正在发生的现实。

互联网档案馆的创始人 Brewster Kahle 对此感到无奈。他说，如果出版商限制像档案馆这样的图书馆，公众获取历史记录的机会就会减少。

这可能会破坏他们对抗“信息混乱”的工作。

说实话，这种为了保护版权而抹去历史的行为，本身就是一种最大的“信息混乱”。

当《纽约时报》或者《卫报》某天修改了自己的一篇旧报道，而 Wayback Machine 里恰好是一片空白时，我们要去哪里寻找真相？

这就留给各位去思考吧。

参考链接：
https://www.niemanlab.org/2026/01/news-publishers-limit-internet-archive-access-due-to-ai-scraping-concerns/