一个艺术社区做了个实验,往网站上扔了两个"诱饵页面"。
55天后,他们收获了680万次机器人访问。
这还只是一个名不见经传的小站点。
一个你看不见的战争
事情是这样的。
Glade Art 是一个反 AI 训练的艺术家社区。他们做了件很"坏"的事——建了两个专门用来坑机器人的页面,一个叫"data-export",一个叫"gro"。这些页面没有任何真实内容,只是一堆用来浪费机器人时间的垃圾数据,业内叫"数字沥青坑"(digital tar pit)或者"蜜罐"(honeypot)。
结果呢?
55天,680万次请求。35天,8.4万次请求。
平均每天十几万次机器人来访,老老实实、勤勤恳恳地下载那些毫无意义的垃圾数据。
说实话,这个数字让我后背发凉。不是因为它很大,而是因为——这还只是冰山一角。
机器人不守规矩,它们根本不吃robots.txt
先科普一个常识。
互联网上有个叫 robots.txt 的东西,网站用它告诉搜索引擎:"这些地方你可以来,这些地方你别进。"好孩子比如 Google、Bing 都会乘乘遵守。但坏孩子呢?
直接无视。
Glade Art 在自己的 robots.txt 里明确写了:"所有机器人禁止进入沥青坑页面。"结果呢?机器人跟没看见一样,照进不误。
评论区有个网友分享了自己的遭遇更离谱:
"昨天我们遭遇了一次分布式爬虫攻击。大约40万个独立IP地址在3小时内疯狂访问,每个IP只请求几次,但间隔很长,伪装得像真人一样。"
40万个IP。3小时。
这不是什么国家级黑客攻击,这就是某家 AI 公司或者数据中间商的日常操作。
最可怕的事:机器人住在你家小区
Glade Art 团队追踪了这些请求的 IP 地址,发现了一个惊人的事实:
这些机器人 不住在数据中心。
它们住在居民区,用的是家庭宽带和移动网络。IP 地址主要来自亚洲国家,印尼是重灾区。
什么意思?
它们不是从某个机房的服务器发起的,而是从成千上万个普通家庭的路由器里爬出来的。通过某种方式,AI 公司租用/劫持了这些住宅IP,让机器人看起来就像是你邻居在上网。
这就是为什么传统反爬手段越来越没用了。系统检测到的是一个完全正常的家庭宽带 IP,背后却可能是24小时不间断爬取数据的脚本。
更骚的操作是:它们甚至不需要执行 JavaScript。维基百科和老 Reddit 这种根本不用 JS 的老网站,对它们来说就是自助餐厅,想拿多少拿多少。
51%?不,可能是70%以上
2024年有报告说,互联网流量里大约51%是机器人。
但 Glade Art 的数据把这个数字撕开了一道口子。
传统统计方法依赖一个假设:如果 IP 来自数据中心,那很可能是机器人;如果来自家庭网络,那就是真人。
问题是,现在机器人也会伪装成真人了。
它们用住宅IP,会执行 JS(至少部分会),有完整的 User-Agent 和 Referrer。统计方法已经过时了。
所以业内有人猜测:真实比例可能 超过70%。
也就是说,你刷到的每10条内容里,可能有7条是被机器人扒拉过无数遍的。
当然,这个数字包含了各种机器人——搜索引擎爬虫、广告机器人、垃圾邮件机器人、恶意扫描机器人……但其中增长最快、规模最大的那一批,很可能就是正在疯狂囤数据的 AI 训练爬虫。
120,000部小说,就这么说没就没了
Glade Art 还算了另一笔账。
他们的"data-export"页面每次请求会产生大约9000个字符。680万次请求,就是 520亿个字符。
换算一下——大约相当于 12万部小说。
全部喂给了机器人。
而且这些机器人根本不在乎内容是什么。它们就是爬,爬到就是赚到。甭管是垃圾还是宝贝,先搬回去再说。
评论区有个网友说得挺扎心:
"AI 公司和它们的爬虫就像癌症,正在摧毁互联网仅剩的那点净土。"
话糙理不糙。
一个简单到离谱的解决方案
最讽刺的来了。
Glade Art 后来在沥青坑里加了个东西——Anubis,一个工作量证明(Proof of Work)机制。难度设到最低档。
加之前:每天几十万个机器人请求。
加之后:24小时内,降到每天 11个请求,基本上都是好奇的人类。
就这?
对,就这。
工作量证明的原理很简单:真金白银要花计算资源才能访问。人类点一下页面等个几百毫秒无所谓,但让机器人每天花几百万次计算成本试试?
瞬间劝退。
有个网友说自己试了之后效果拔群:
"我用 Anubis 低难度配置了我的所有项目,然后在 robots.txt 里加了个 llms.txt 让正规 AI 还能获取数据,同时把恶意爬虫全拦了。来自中国的请求量大到惊人,但现在看来这问题解决起来还挺简单。"
所以现在的情况是:解决方案早就有了,但大部分网站根本没用。
因为大多数网站运营者根本不知道这件事,或者觉得"反正影响不大"。而那些真正被爬怕的中小网站,往往也没有技术能力去配置这些。
真正的赢家是谁?
Glade Art 团队做了个猜测:
这些大规模的爬虫,不太可能是普通黑产。普通攻击者哪有财力调动几百万个独立IP?
它们背后很可能是 AI 公司,或者靠卖数据给 AI 公司为生的数据中间商。
具体是谁?不知道,也很难知道。
但全世界数得出来的大型 AI 公司就那么几家。OpenAI、Anthropic、Google、Meta、xAI……
当然,没有直接证据证明它们在干这事。但当整个互联网都被这种规模的爬虫淹没时,很难不让人联想。
有个评论说得好:
"如果你想保护信息不被不该拿的人拿走,那这个网站现在的做法确实是最理想的。但问题是,信息最后还是会被拿走。你不可能用直接对抗的方式,打赢一个背后站着台积电晶圆厂预算和微软云基础设施的对手。"
这话听着有点绝望,但可能是事实。
所以呢?
这场战争,普通人几乎看不见。
我们刷着手机,以为看到的是人类生产的内容。其实很可能是一层又一层的机器人搬运、清洗、重组之后的结果。
原始创作者的声音,被淹没在数据洪流里。
而那些洪流的目的,是训练出更好的 AI。
AI 越强,爬虫越狠;爬虫越狠,内容生态越烂。
一个完美的负向螺旋。
Glade Art 的人说他们设置沥青坑"主要是觉得坑机器人挺好玩的"。
但笑着笑着,可能就笑不出来了。
当一半以上的互联网流量都是机器人时——
我们到底还在为谁创作?
【MiniMax-M2.1锐评】:这篇文章揭开了互联网光鲜外表下的"僵尸流量"真相,那些每天喊着"AI革命"的公司,可能正是把互联网变成废墟的罪魁祸首。
参考链接:
https://gladeart.com/blog/the-bot-situation-on-the-internet-is-actually-worse-than-you-could-imagine-heres-why