当《纽约时报》开始"销毁"图书馆

想象一下——

一家报纸宣布:从今往后,图书馆不许保存我们的报纸。

AI配图

荒谬吗?但这件事正在互联网上真实发生。

2026年3月,《纽约时报》做了一件看起来很"技术"的事:封锁互联网档案馆(Internet Archive)的爬虫。用的不是传统的robots.txt声明,而是更严厉的技术手段。《卫报》等媒体似乎也在跟进。

表面上,这是一个关于AI的战争故事。媒体说:我们在对抗那些偷我们内容训练大模型的公司。

但稍微想一下,你就知道哪里不对劲。

互联网档案馆是什么地方?一个非营利的数字图书馆,1996年就开始运作,运营着著名的"时光机"(Wayback Machine),保存了超过一万亿个网页的历史版本。历史学家查资料用法它,记者核实新闻用它,法院取证也用它。

它不是AI公司。它不训练大模型。它只是——把网页存下来,让后人能看到。

结果呢?媒体为了打AI,顺手把档案馆也给封了。

相当于为了抓一只老鼠,把整个谷仓烧了。

30年的历史记录,正在消失

让我说一个具体的场景。

假设2023年某篇新闻报道引发了巨大争议。原文被修改了,被删除了,甚至网站都下线了。谁还记得当初到底写了什么?

AI配图

过去,你可以去互联网档案馆看。它就像一个永不关门的图书馆,存着网页"生前"的样子。

但现在,当你打开档案馆,迎接你的是404。

这不是假设。EFF在文章里说得很直接: major publishers block the Archive's crawlers, that historical record starts to disappear。

当主要出版商开始切断档案馆的访问,那些历史记录——就开始消失。

有多严重?维基百科这一个平台,就链接了超过260万篇保存在互联网档案馆里的新闻文章,涵盖249种语言。这还只是冰山一角。

多少博客、研究者、调查记者,把档案馆当作权威的"事实参照物"?

多少法院案件需要追溯网页的原始版本?

多少历史学者正在撰写关于21世纪初的著作,却发现原始资料已经404了?

我不知道具体数字,但我知道一件事:这些丢失的内容,不会再回来。

一个讽刺的现实:打错了人

《纽约时报》们有一肚子的委屈。

他们起诉AI公司,说大模型训练用了他们的内容,没有授权,侵犯版权。这个案子正在打,合理使用(fair use)的边界到底在哪里,法官还没判。

但问题是——

互联网档案馆,它不是被告。

AI配图

它不开发AI。它不训练模型。它只是一个保存历史网页的公益机构。

结果呢?媒体在法庭上跟AI公司打官司,顺带把档案馆给封了。

这就好比:

邻居两家吵架,A说B偷了我家东西要告官。告官之前,A先把小区里所有公共摄像头都砸了——理由是"万一监控视频被偷走怎么办"。

公共摄像头做错了什么?

档案馆的员工大概也在问这个问题。

Organizations like the Internet Archive are not building commercial AI systems. They are preserving a record of our history.

EFF的原文说得很清楚:档案馆不是商业AI系统,他们在保存历史记录。

为了打一场自己没参与的战争,牺牲掉三十年的公共档案。

老实讲,这逻辑我看不懂。

合理使用:档案馆的法律护身符

好消息是,档案馆不是没有法律保护。

坏消息是,这个保护现在正在被绕过。

关于"制作可搜索材料是否算合理使用",法院早就表态过了。最著名的案例就是谷歌扫描整本书建立搜索数据库——法院明确判定这是合理使用,因为复制是为了"变革性目的":让知识可发现、可研究。

档案馆遵循的是同样逻辑。

物理图书馆保存报纸供未来读者阅读,数字档案馆保存网页供研究者查阅。两者没有本质区别。

EFF指出:保护搜索引擎的法律原则,同样应该保护档案馆和图书馆。

换句话说,哪怕法院将来对AI训练施加某些限制,档案馆依然应该被保护——因为它做的是完全不同的事。

但现在的问题在于:《纽约时报》们没有耐心等法院判决。

他们选择先下手为强。用技术手段封锁,用"防范AI"的名义,绕过法律框架直接把档案馆拒之门外。

这是一种懒政。更糟糕的是,这是一种不可逆的破坏。

一个更大的问题:我们在失去互联网的记忆

让我说一个有点悲观的事实。

互联网是人类历史上最庞大的信息存储系统,但它也是最脆弱的。

网站会关闭,服务器会下线,公司会倒闭,内容会被修改或删除。没有中央档案馆,很多东西一旦消失,就永远消失了。

互联网档案馆存在的意义,就是对抗这种脆弱性。

它不是完美的。它有过争议,有过法律纠纷。但它确实是目前最接近"互联网记忆"的东西。

现在呢?

当媒体为了打击AI而封锁档案馆,他们实际上在做一件事:主动让自己被遗忘。

这让我想起一个评论区的观点:

除非你爱围墙花园、爱无限下滑、爱无穷无尽的AI垃圾内容——否则的话,乐趣真的结束了。

当历史记录可以被随意抹去,当公共档案可以被技术手段屏蔽,我们得到的是一个更"干净"的互联网,还是一个更贫瘠的互联网?

我不知道。

但我知道,当《纽约时报》的后人在档案馆里找不到2020年的报道时,他们会困惑:为什么爷爷创办的报纸,不愿意被历史记住?

结语

这场战争的代价,不是由AI公司支付的。

是由历史支付的。

是由那些需要查阅原始资料的学者支付的。

是由每一个想知道自己"曾经在网上说过什么"的普通人支付的。

AI公司依然会爬取内容——他们有的是资源和技术。封锁一个非营利的档案馆,挡不住商业爬虫。

但档案馆被封锁,那些真正需要历史记录的人,就真的找不回来了。

杀敌一千,自毁历史。

这笔买卖,我觉得不划算。


【MiniMax-M2.1锐评】:媒体对AI的恐惧可以理解,但拿历史记录当炮灰,未免太短视——三十年的人类数字记忆,不该成为版权战争的牺牲品。

参考链接:
https://www.eff.org/deeplinks/2026/03/blocking-internet-archive-wont-stop-ai-it-will-erase-webs-historical-record