互联网一半以上是机器人？但真相远比这更恐怖

一个艺术社区做了个实验，往网站上扔了两个"诱饵页面"。

55天后，他们收获了680万次机器人访问。

这还只是一个名不见经传的小站点。

一个你看不见的战争

事情是这样的。

Glade Art 是一个反 AI 训练的艺术家社区。他们做了件很"坏"的事——建了两个专门用来坑机器人的页面，一个叫"data-export"，一个叫"gro"。这些页面没有任何真实内容，只是一堆用来浪费机器人时间的垃圾数据，业内叫"数字沥青坑"（digital tar pit）或者"蜜罐"（honeypot）。

结果呢？

55天，680万次请求。35天，8.4万次请求。

平均每天十几万次机器人来访，老老实实、勤勤恳恳地下载那些毫无意义的垃圾数据。

说实话，这个数字让我后背发凉。不是因为它很大，而是因为——这还只是冰山一角。

机器人不守规矩，它们根本不吃robots.txt

先科普一个常识。

互联网上有个叫 robots.txt 的东西，网站用它告诉搜索引擎："这些地方你可以来，这些地方你别进。"好孩子比如 Google、Bing 都会乘乘遵守。但坏孩子呢？

直接无视。

Glade Art 在自己的 robots.txt 里明确写了："所有机器人禁止进入沥青坑页面。"结果呢？机器人跟没看见一样，照进不误。

评论区有个网友分享了自己的遭遇更离谱：

"昨天我们遭遇了一次分布式爬虫攻击。大约40万个独立IP地址在3小时内疯狂访问，每个IP只请求几次，但间隔很长，伪装得像真人一样。"

40万个IP。3小时。

这不是什么国家级黑客攻击，这就是某家 AI 公司或者数据中间商的日常操作。

最可怕的事：机器人住在你家小区

Glade Art 团队追踪了这些请求的 IP 地址，发现了一个惊人的事实：

这些机器人 不住在数据中心。

它们住在居民区，用的是家庭宽带和移动网络。IP 地址主要来自亚洲国家，印尼是重灾区。

什么意思？

它们不是从某个机房的服务器发起的，而是从成千上万个普通家庭的路由器里爬出来的。通过某种方式，AI 公司租用/劫持了这些住宅IP，让机器人看起来就像是你邻居在上网。

这就是为什么传统反爬手段越来越没用了。系统检测到的是一个完全正常的家庭宽带 IP，背后却可能是24小时不间断爬取数据的脚本。

更骚的操作是：它们甚至不需要执行 JavaScript。维基百科和老 Reddit 这种根本不用 JS 的老网站，对它们来说就是自助餐厅，想拿多少拿多少。

51%？不，可能是70%以上

2024年有报告说，互联网流量里大约51%是机器人。

但 Glade Art 的数据把这个数字撕开了一道口子。

传统统计方法依赖一个假设：如果 IP 来自数据中心，那很可能是机器人；如果来自家庭网络，那就是真人。

问题是，现在机器人也会伪装成真人了。

它们用住宅IP，会执行 JS（至少部分会），有完整的 User-Agent 和 Referrer。统计方法已经过时了。

所以业内有人猜测：真实比例可能 超过70%。

也就是说，你刷到的每10条内容里，可能有7条是被机器人扒拉过无数遍的。

当然，这个数字包含了各种机器人——搜索引擎爬虫、广告机器人、垃圾邮件机器人、恶意扫描机器人……但其中增长最快、规模最大的那一批，很可能就是正在疯狂囤数据的 AI 训练爬虫。

120,000部小说，就这么说没就没了

Glade Art 还算了另一笔账。

他们的"data-export"页面每次请求会产生大约9000个字符。680万次请求，就是 520亿个字符。

换算一下——大约相当于 12万部小说。

AI配图

全部喂给了机器人。

而且这些机器人根本不在乎内容是什么。它们就是爬，爬到就是赚到。甭管是垃圾还是宝贝，先搬回去再说。

评论区有个网友说得挺扎心：

"AI 公司和它们的爬虫就像癌症，正在摧毁互联网仅剩的那点净土。"

话糙理不糙。

一个简单到离谱的解决方案

最讽刺的来了。

Glade Art 后来在沥青坑里加了个东西——Anubis，一个工作量证明（Proof of Work）机制。难度设到最低档。

加之前：每天几十万个机器人请求。

加之后：24小时内，降到每天 11个请求，基本上都是好奇的人类。

就这？

对，就这。

工作量证明的原理很简单：真金白银要花计算资源才能访问。人类点一下页面等个几百毫秒无所谓，但让机器人每天花几百万次计算成本试试？

瞬间劝退。

有个网友说自己试了之后效果拔群：

"我用 Anubis 低难度配置了我的所有项目，然后在 robots.txt 里加了个 llms.txt 让正规 AI 还能获取数据，同时把恶意爬虫全拦了。来自中国的请求量大到惊人，但现在看来这问题解决起来还挺简单。"

所以现在的情况是：解决方案早就有了，但大部分网站根本没用。

因为大多数网站运营者根本不知道这件事，或者觉得"反正影响不大"。而那些真正被爬怕的中小网站，往往也没有技术能力去配置这些。

真正的赢家是谁？

Glade Art 团队做了个猜测：

这些大规模的爬虫，不太可能是普通黑产。普通攻击者哪有财力调动几百万个独立IP？

AI配图

它们背后很可能是 AI 公司，或者靠卖数据给 AI 公司为生的数据中间商。

具体是谁？不知道，也很难知道。

但全世界数得出来的大型 AI 公司就那么几家。OpenAI、Anthropic、Google、Meta、xAI……

当然，没有直接证据证明它们在干这事。但当整个互联网都被这种规模的爬虫淹没时，很难不让人联想。

有个评论说得好：

"如果你想保护信息不被不该拿的人拿走，那这个网站现在的做法确实是最理想的。但问题是，信息最后还是会被拿走。你不可能用直接对抗的方式，打赢一个背后站着台积电晶圆厂预算和微软云基础设施的对手。"

这话听着有点绝望，但可能是事实。

所以呢？

这场战争，普通人几乎看不见。

我们刷着手机，以为看到的是人类生产的内容。其实很可能是一层又一层的机器人搬运、清洗、重组之后的结果。

原始创作者的声音，被淹没在数据洪流里。

AI配图

而那些洪流的目的，是训练出更好的 AI。

AI 越强，爬虫越狠；爬虫越狠，内容生态越烂。

一个完美的负向螺旋。

Glade Art 的人说他们设置沥青坑"主要是觉得坑机器人挺好玩的"。

但笑着笑着，可能就笑不出来了。

当一半以上的互联网流量都是机器人时——

我们到底还在为谁创作？

【MiniMax-M2.1锐评】：这篇文章揭开了互联网光鲜外表下的"僵尸流量"真相，那些每天喊着"AI革命"的公司，可能正是把互联网变成废墟的罪魁祸首。

参考链接：
https://gladeart.com/blog/the-bot-situation-on-the-internet-is-actually-worse-than-you-could-imagine-heres-why