200美金买顶配，却被Anthropic当小白鼠？Claude Code这波A/B测试惹众怒

如果你每个月花200美金订阅一个工具，结果发现它偷偷摸摸在后台“降智”，你会怎么想？

这是真实发生在一位开发者身上的事。他以为是自己的错觉，结果发现是厂商在拿他的工作流做A/B测试。

我的AI助手怎么突然“变蠢”了？

Claude Code 在圈子里风头正劲。

哥们儿是Anthropic的早期信徒，对Claude Code赞不绝口，说它彻底改变了自己的工作方式。

但过去这一周，他的心态崩了。

原本好用的“计划模式（Plan Mode）”，突然变得极其难用。以前Claude给出的方案详尽、周全，现在呢？全是干巴巴的要点列表，没上下文，没解释，甚至把关键的文件路径都给删了。

之前的得力助手，突然某天开始只会回复“收到”、“好的”、“已办”，多一个字都不说。

工作流被严重破坏，效率直线下降。 他忍不住问Claude：“你为什么写出这么烂的计划？”

Claude的回答说它在执行系统指令：硬性限制计划不超过40行，禁止上下文板块，删除描述性文字。

亲口招供

这显然不是AI自己的主意。

博主怀疑自己被卷入了某种测试。为了验证猜想，他做了一些“技术探索”（因为违反ToS条款，他后来删掉了具体细节）。

结果发现，这根本不是Bug，而是Feature。

Anthropic正在对Claude Code进行A/B测试。用户不知情的情况下，被分配到了不同的实验组。

有些人拿到了聪明的Claude，有些人则拿到了被“阉割”过的版本。

博主愤怒的点是：我付了200美金，买的是专业生产力工具，不是来给你当免费测试员的。

如果是免费版，忍忍也就算了。但这是针对专业用户的付费产品。专业工具最核心的价值是什么？是确定性。

今天好用的功能，明天可能就变了；今天的提示词，明天可能就失效了。这种不确定性，对于依赖AI进行生产的专业人士来说，简直是灾难。

删帖保号

有意思的是，这篇文章在Hacker News上冲到了第一名。

但随后，博主修改了文章，语气变得温和了许多。

为什么？因为他发现自己挖掘证据的手段（反编译等）可能违反了Anthropic的服务条款。为了不惹麻烦，他删掉了那些“实锤”细节。

“如果这篇帖子没上热搜，我可能早就把它删了。”他在更新中写道。

这反而更让人觉得讽刺。用户被当成小白鼠，想要讨个说法，还得小心翼翼地避开“违规”风险。

当然，Anthropic不是故意要恶心用户。这背后大概率是成本与体验的博弈。

Hacker News上的一条高赞评论一针见血：

Anthropic必须在每个处理环节做选择。如果所有功能都拉满，每个用户的成本可能高达400美金，而收费只有200美金。他们必须通过A/B测试，找到那个“既能省钱又不至于让用户全跑光”的平衡点。

说白了，这就是在赌你的忍耐度。

专业工具还是实验沙盒？

这就引出了一个更深层的问题：A/B测试的边界到底在哪里？

在互联网行业，A/B测试是家常便饭。改个按钮颜色、调个字体大小，没人会在意。

但在AI工具上，这完全是另一码事。

你改的不是UI，是逻辑，是智商。

有开发者评论说，这让他想起了那些“说废话的CEO”——看起来滔滔不绝，实则毫无逻辑。当AI开始被偷偷限制输出长度，它就从“智能助手”退化成了“只会填空的机器”。

更可怕的是，这种测试是“静默”的。

如果不问，你根本不知道是自己写错了提示词，还是AI被“降智”了。这种黑箱操作，直接击碎了用户对工具的信任。

开源能救吗？

既然闭源工具不仅贵、还可能被当小白鼠，那开源工具是不是解药？

评论区里有人提到了开源替代品，比如Pi。

开源的好处显而易见：代码在你手里，没人能偷偷改你的系统提示词。 你的工具是确定的，你的工作流是稳定的。

但反方观点也很犀利：开源工具永远无法像闭源巨头那样进化。

为什么？因为巨头有海量数据，有无数像这位博主一样的“付费小白鼠”在帮他们调优模型。开源工具靠的是开发者的直觉和经验，缺乏这种大规模A/B测试的数据喂养。

这就陷入了一个死循环：

想要确定性，就得忍受工具进化慢；
想要最先进的AI，就得接受被当小白鼠的命运。

别把我的工作流当成试验田

这位博主最后并没有要求Anthropic停止A/B测试，他只提了两个要求：透明度和可配置性。

“我不反对测试，但我需要知道我在被测试，并且我有权选择退出。”

这其实是给所有AI厂商敲响了警钟。

当AI从“玩具”变成“工具”，用户对它的期待就变了。我们不需要一个每天性格都不一样的助手，我们需要的是一个靠谱的搭档。

如果你非要拿我的工作流做实验，请先把选择权还给我。

毕竟，谁也不想在某天深夜赶Bug时，发现自己花200美金请来的帮手，正在后台偷偷执行一行“限制智商”的代码。

【glm-5锐评】：200刀买来的不是上帝模式，是薛定谔的智商——你永远不知道今天的Claude是天才还是被阉割的傻瓜。

参考链接：
https://backnotprop.com/blog/do-not-ab-test-my-workflow/