图注

一个艺术社区做了个实验,往网站上扔了两个"诱饵页面"。

55天后,他们收获了680万次机器人访问。

这还只是一个名不见经传的小站点。


一个你看不见的战争

事情是这样的。

Glade Art 是一个反 AI 训练的艺术家社区。他们做了件很"坏"的事——建了两个专门用来坑机器人的页面,一个叫"data-export",一个叫"gro"。这些页面没有任何真实内容,只是一堆用来浪费机器人时间的垃圾数据,业内叫"数字沥青坑"(digital tar pit)或者"蜜罐"(honeypot)。

结果呢?

55天,680万次请求。35天,8.4万次请求。

平均每天十几万次机器人来访,老老实实、勤勤恳恳地下载那些毫无意义的垃圾数据。

说实话,这个数字让我后背发凉。不是因为它很大,而是因为——这还只是冰山一角。


机器人不守规矩,它们根本不吃robots.txt

先科普一个常识。

互联网上有个叫 robots.txt 的东西,网站用它告诉搜索引擎:"这些地方你可以来,这些地方你别进。"好孩子比如 Google、Bing 都会乘乘遵守。但坏孩子呢?

直接无视。

Glade Art 在自己的 robots.txt 里明确写了:"所有机器人禁止进入沥青坑页面。"结果呢?机器人跟没看见一样,照进不误。

评论区有个网友分享了自己的遭遇更离谱:

"昨天我们遭遇了一次分布式爬虫攻击。大约40万个独立IP地址在3小时内疯狂访问,每个IP只请求几次,但间隔很长,伪装得像真人一样。"

40万个IP。3小时。

这不是什么国家级黑客攻击,这就是某家 AI 公司或者数据中间商的日常操作。


最可怕的事:机器人住在你家小区

Glade Art 团队追踪了这些请求的 IP 地址,发现了一个惊人的事实:

这些机器人 不住在数据中心

它们住在居民区,用的是家庭宽带和移动网络。IP 地址主要来自亚洲国家,印尼是重灾区。

什么意思?

它们不是从某个机房的服务器发起的,而是从成千上万个普通家庭的路由器里爬出来的。通过某种方式,AI 公司租用/劫持了这些住宅IP,让机器人看起来就像是你邻居在上网。

这就是为什么传统反爬手段越来越没用了。系统检测到的是一个完全正常的家庭宽带 IP,背后却可能是24小时不间断爬取数据的脚本。

更骚的操作是:它们甚至不需要执行 JavaScript。维基百科和老 Reddit 这种根本不用 JS 的老网站,对它们来说就是自助餐厅,想拿多少拿多少。


51%?不,可能是70%以上

2024年有报告说,互联网流量里大约51%是机器人。

但 Glade Art 的数据把这个数字撕开了一道口子。

传统统计方法依赖一个假设:如果 IP 来自数据中心,那很可能是机器人;如果来自家庭网络,那就是真人。

问题是,现在机器人也会伪装成真人了。

它们用住宅IP,会执行 JS(至少部分会),有完整的 User-Agent 和 Referrer。统计方法已经过时了。

所以业内有人猜测:真实比例可能 超过70%

也就是说,你刷到的每10条内容里,可能有7条是被机器人扒拉过无数遍的。

当然,这个数字包含了各种机器人——搜索引擎爬虫、广告机器人、垃圾邮件机器人、恶意扫描机器人……但其中增长最快、规模最大的那一批,很可能就是正在疯狂囤数据的 AI 训练爬虫。


120,000部小说,就这么说没就没了

Glade Art 还算了另一笔账。

他们的"data-export"页面每次请求会产生大约9000个字符。680万次请求,就是 520亿个字符

换算一下——大约相当于 12万部小说

AI配图

全部喂给了机器人。

而且这些机器人根本不在乎内容是什么。它们就是爬,爬到就是赚到。甭管是垃圾还是宝贝,先搬回去再说。

评论区有个网友说得挺扎心:

"AI 公司和它们的爬虫就像癌症,正在摧毁互联网仅剩的那点净土。"

话糙理不糙。


一个简单到离谱的解决方案

最讽刺的来了。

Glade Art 后来在沥青坑里加了个东西——Anubis,一个工作量证明(Proof of Work)机制。难度设到最低档。

加之前:每天几十万个机器人请求。

加之后:24小时内,降到每天 11个请求,基本上都是好奇的人类。

就这?

对,就这。

工作量证明的原理很简单:真金白银要花计算资源才能访问。人类点一下页面等个几百毫秒无所谓,但让机器人每天花几百万次计算成本试试?

瞬间劝退。

有个网友说自己试了之后效果拔群:

"我用 Anubis 低难度配置了我的所有项目,然后在 robots.txt 里加了个 llms.txt 让正规 AI 还能获取数据,同时把恶意爬虫全拦了。来自中国的请求量大到惊人,但现在看来这问题解决起来还挺简单。"

所以现在的情况是:解决方案早就有了,但大部分网站根本没用

因为大多数网站运营者根本不知道这件事,或者觉得"反正影响不大"。而那些真正被爬怕的中小网站,往往也没有技术能力去配置这些。


真正的赢家是谁?

Glade Art 团队做了个猜测:

这些大规模的爬虫,不太可能是普通黑产。普通攻击者哪有财力调动几百万个独立IP?

AI配图

它们背后很可能是 AI 公司,或者靠卖数据给 AI 公司为生的数据中间商。

具体是谁?不知道,也很难知道。

但全世界数得出来的大型 AI 公司就那么几家。OpenAI、Anthropic、Google、Meta、xAI……

当然,没有直接证据证明它们在干这事。但当整个互联网都被这种规模的爬虫淹没时,很难不让人联想。

有个评论说得好:

"如果你想保护信息不被不该拿的人拿走,那这个网站现在的做法确实是最理想的。但问题是,信息最后还是会被拿走。你不可能用直接对抗的方式,打赢一个背后站着台积电晶圆厂预算和微软云基础设施的对手。"

这话听着有点绝望,但可能是事实。


所以呢?

这场战争,普通人几乎看不见。

我们刷着手机,以为看到的是人类生产的内容。其实很可能是一层又一层的机器人搬运、清洗、重组之后的结果。

原始创作者的声音,被淹没在数据洪流里。

AI配图

而那些洪流的目的,是训练出更好的 AI。

AI 越强,爬虫越狠;爬虫越狠,内容生态越烂。

一个完美的负向螺旋。

Glade Art 的人说他们设置沥青坑"主要是觉得坑机器人挺好玩的"。

但笑着笑着,可能就笑不出来了。

当一半以上的互联网流量都是机器人时——

我们到底还在为谁创作?


【MiniMax-M2.1锐评】:这篇文章揭开了互联网光鲜外表下的"僵尸流量"真相,那些每天喊着"AI革命"的公司,可能正是把互联网变成废墟的罪魁祸首。

参考链接:
https://gladeart.com/blog/the-bot-situation-on-the-internet-is-actually-worse-than-you-could-imagine-heres-why