这听起来像个黑色幽默。
为了保护自己的内容不被 AI 公司“偷走”,全球顶尖的新闻机构正在做一件事:封杀互联网档案馆。
你没听错,那个致力于“普及所有知识”、保存了超过一万亿个网页快照的非营利组织,现在成了新闻界的“眼中钉”。
《卫报》、《纽约时报》、Reddit,甚至美国最大的报业集团 Gannett,都在最近几个月里,纷纷举起了大棒,把互联网档案馆的爬虫拒之门外。理由很硬核:他们怕 AI 公司通过档案馆“后门”偷数据。
但说实话,这操作怎么看怎么像是为了防小偷,把自己家的图书馆给烧了。
被误伤的“好人”
这事儿闹得挺大,但起因其实很简单。
《卫报》的商业事务主管 Robert Hahn 最近在查看后台日志时发现,互联网档案馆的爬虫来得太频繁了。这让他心里一紧。
他担心的不是档案馆本身,而是那些饥渴的 AI 公司。
“很多 AI 企业都在寻找现成的、结构化的内容数据库,” Hahn 说,“互联网档案馆的 API 显然就是那个让他们插上管子、把知识产权吸干的地方。”虽然 Hahn 也承认,Wayback Machine 本身因为数据没那么结构化,风险还算小。但为了保险起见,《卫报》还是决定动手了。
他们没直接切断所有联系,但干了一件很微妙的事:把自家的文章页面从 Wayback Machine 的 URL 接口里过滤掉了。
也就是说,以后你想在 Wayback Machine 里看《卫报》的历史报道?大概率是看不到了。
《纽约时报》更狠,直接来了个“硬封锁”。他们在 2025 年底直接把互联网档案馆的爬虫写进了 robots.txt 文件,明令禁止访问。> “我们相信《纽约时报》以人为本的新闻价值……我们要确保 IP 被合法访问。” 发言人的话冠冕堂皇,潜台词很明显:Wayback Machine 提供了不受限制的访问,包括给那些没授权的 AI 公司。
这就有意思了。互联网档案馆一直被认为是互联网世界的“好人”,是数字文明的诺亚方舟。但在 AI 带来的版权恐慌面前,好人也成了 collateral damage(附带伤害)。
这是一场连坐如果你觉得这只是几家大厂的矫情,那你就太小看这场风波了。
Nieman Lab 搞了个调查,扒了 1167 家新闻网站的 robots.txt 文件。结果吓一跳:有 241 家新闻网站明确封杀了至少一种互联网档案馆的爬虫。
这里面最积极的是谁?美国最大的报业集团 Gannett(也就是今日美国 USA Today 的母公司)。
数据不会撒谎。在这 241 家“拉黑”档案馆的网站里,87% 都是 Gannett 旗下的。他们在 2025 年集体把 archive.org_bot 等爬虫加入了黑名单。Gannett 的 CEO Mike Reed 在去年 9 月的财报电话会上可是相当得意。
“光 9 月份,我们就拦截了 7500 万个 AI 机器人,” 他说,“其中 7000 万个来自 OpenAI。”
你看,为了防 OpenAI,他们把互联网档案馆也一并堵在了门外。
这就好比为了防贼进屋偷东西,把所有窗户都封死,连送快递的也不让进了。
甚至 Reddit 也凑热闹。去年 8 月,Reddit 宣布封杀互联网档案馆。理由很“正当”:有 AI 公司违反平台政策,专门从 Wayback Machine 里抓取 Reddit 的评论和帖子。Reddit 现在把这些数据卖给 Google 赚几千万美元,当然不希望别人通过档案馆“免费”拿走。
曾经把服务器干崩的疯狂往事
新闻界的担忧是空穴来风吗?倒也不全是。
互联网档案馆确实因为 AI 公司吃过亏。
早在 2023 年 5 月,档案馆就因为一家 AI 公司的疯狂抓取而被迫宕机。Wayback Machine 的总监 Mark Graham 回忆说,那家公司从 AWS 的虚拟主机上每秒发送数万个请求,只想干一件事:**把档案馆公共领域里的文本数据全扒走。**最后怎么解决的?档案馆封了对方两次 IP,对方道了歉,还捐了一笔钱。
“那些想要批量使用我们材料的人,动作慢点,循序渐进,” 创始人 Brewster Kahle 当时还在博客里好言相劝,“如果你们要搞大项目,请联系我们……我们是来帮忙的。”
但这显然没能阻止 AI 公司的贪婪。
有分析显示,Google 的 C4 数据集(用来训练 T5 和 Llama 模型的那个)里,互联网档案馆的域名是排名第 187 位的最大数据源。AI 公司确实在“喝”档案馆的血。
谁才是真正的输家?
现在的问题是,新闻机构这种“宁可错杀一千,不可放过一个”的做法,真的能防住 AI 吗?
我个人觉得,这更像是一种自我安慰。
正如有评论指出的那样,AI 公司如果真想抓,根本不会在乎 robots.txt。他们会用住宅代理,换着 IP 来抓。结果就是,新闻网站的服务器压力更大了,成本更高了,而 AI 公司还是拿到了数据。
唯一的输家是谁?是普通公众,是研究者,是那些依赖互联网档案馆来查阅历史记录的人。
有一位叫 Michael Nelson 的计算机科学家说得很扎心:
“Common Crawl 和互联网档案馆被广泛认为是‘好人’,却被像 OpenAI 这样的‘坏人’利用。在大家不想被 LLM 控制的厌恶情绪中,我觉得好人成了附带伤害。”
更深层的问题在于,我们正在失去互联网的“共同记忆层”。
有合规专家指出,像 SOC 2 和 HIPAA 这样的监管框架,要求必须有审计线索和证据留存。很多证据就存在于 URL 里。如果一个新闻网站删了一篇报道,而档案馆里也没有了,那这个审计线索就断了。> “如果互联网的大部分内容变得故意不可存档,我们就会慢慢失去共享的记忆层。” 这不是危言耸听,这是正在发生的现实。
互联网档案馆的创始人 Brewster Kahle 对此感到无奈。他说,如果出版商限制像档案馆这样的图书馆,公众获取历史记录的机会就会减少。
这可能会破坏他们对抗“信息混乱”的工作。
说实话,这种为了保护版权而抹去历史的行为,本身就是一种最大的“信息混乱”。
当《纽约时报》或者《卫报》某天修改了自己的一篇旧报道,而 Wayback Machine 里恰好是一片空白时,我们要去哪里寻找真相?
这就留给各位去思考吧。
参考链接:
https://www.niemanlab.org/2026/01/news-publishers-limit-internet-archive-access-due-to-ai-scraping-concerns/