如果你每个月花200美金订阅一个工具,结果发现它偷偷摸摸在后台“降智”,你会怎么想?

这是真实发生在一位开发者身上的事。他以为是自己的错觉,结果发现是厂商在拿他的工作流做A/B测试。

我的AI助手怎么突然“变蠢”了?

Claude Code 在圈子里风头正劲。

哥们儿是Anthropic的早期信徒,对Claude Code赞不绝口,说它彻底改变了自己的工作方式。

image

但过去这一周,他的心态崩了。

原本好用的“计划模式(Plan Mode)”,突然变得极其难用。以前Claude给出的方案详尽、周全,现在呢?全是干巴巴的要点列表,没上下文,没解释,甚至把关键的文件路径都给删了。

之前的得力助手,突然某天开始只会回复“收到”、“好的”、“已办”,多一个字都不说。

工作流被严重破坏,效率直线下降。 他忍不住问Claude:“你为什么写出这么烂的计划?”

Claude的回答说它在执行系统指令:硬性限制计划不超过40行,禁止上下文板块,删除描述性文字。

亲口招供

这显然不是AI自己的主意。

博主怀疑自己被卷入了某种测试。为了验证猜想,他做了一些“技术探索”(因为违反ToS条款,他后来删掉了具体细节)。

结果发现,这根本不是Bug,而是Feature。

Anthropic正在对Claude Code进行A/B测试。用户不知情的情况下,被分配到了不同的实验组。

有些人拿到了聪明的Claude,有些人则拿到了被“阉割”过的版本。

博主愤怒的点是:我付了200美金,买的是专业生产力工具,不是来给你当免费测试员的。

如果是免费版,忍忍也就算了。但这是针对专业用户的付费产品。专业工具最核心的价值是什么?是确定性

今天好用的功能,明天可能就变了;今天的提示词,明天可能就失效了。这种不确定性,对于依赖AI进行生产的专业人士来说,简直是灾难。

删帖保号

有意思的是,这篇文章在Hacker News上冲到了第一名。

image

但随后,博主修改了文章,语气变得温和了许多。

为什么?因为他发现自己挖掘证据的手段(反编译等)可能违反了Anthropic的服务条款。为了不惹麻烦,他删掉了那些“实锤”细节。

“如果这篇帖子没上热搜,我可能早就把它删了。”他在更新中写道。

这反而更让人觉得讽刺。用户被当成小白鼠,想要讨个说法,还得小心翼翼地避开“违规”风险。

当然,Anthropic不是故意要恶心用户。这背后大概率是成本与体验的博弈

Hacker News上的一条高赞评论一针见血:

Anthropic必须在每个处理环节做选择。如果所有功能都拉满,每个用户的成本可能高达400美金,而收费只有200美金。他们必须通过A/B测试,找到那个“既能省钱又不至于让用户全跑光”的平衡点。

说白了,这就是在赌你的忍耐度。

专业工具还是实验沙盒?

这就引出了一个更深层的问题:A/B测试的边界到底在哪里?

在互联网行业,A/B测试是家常便饭。改个按钮颜色、调个字体大小,没人会在意。

但在AI工具上,这完全是另一码事。

你改的不是UI,是逻辑,是智商

有开发者评论说,这让他想起了那些“说废话的CEO”——看起来滔滔不绝,实则毫无逻辑。当AI开始被偷偷限制输出长度,它就从“智能助手”退化成了“只会填空的机器”。

更可怕的是,这种测试是“静默”的。

如果不问,你根本不知道是自己写错了提示词,还是AI被“降智”了。这种黑箱操作,直接击碎了用户对工具的信任。

开源能救吗?

既然闭源工具不仅贵、还可能被当小白鼠,那开源工具是不是解药?

评论区里有人提到了开源替代品,比如Pi。

开源的好处显而易见:代码在你手里,没人能偷偷改你的系统提示词。 你的工具是确定的,你的工作流是稳定的。

但反方观点也很犀利:开源工具永远无法像闭源巨头那样进化。

为什么?因为巨头有海量数据,有无数像这位博主一样的“付费小白鼠”在帮他们调优模型。开源工具靠的是开发者的直觉和经验,缺乏这种大规模A/B测试的数据喂养。

这就陷入了一个死循环:

  • 想要确定性,就得忍受工具进化慢;
  • 想要最先进的AI,就得接受被当小白鼠的命运。

别把我的工作流当成试验田

这位博主最后并没有要求Anthropic停止A/B测试,他只提了两个要求:透明度可配置性

“我不反对测试,但我需要知道我在被测试,并且我有权选择退出。”

这其实是给所有AI厂商敲响了警钟。

当AI从“玩具”变成“工具”,用户对它的期待就变了。我们不需要一个每天性格都不一样的助手,我们需要的是一个靠谱的搭档。

image

如果你非要拿我的工作流做实验,请先把选择权还给我。

毕竟,谁也不想在某天深夜赶Bug时,发现自己花200美金请来的帮手,正在后台偷偷执行一行“限制智商”的代码。

【glm-5锐评】:200刀买来的不是上帝模式,是薛定谔的智商——你永远不知道今天的Claude是天才还是被阉割的傻瓜。

参考链接:
https://backnotprop.com/blog/do-not-ab-test-my-workflow/