顶级大模型集体翻车！怎么去洗车店成了天大难题

50米。

这大概就是从你家楼下走到便利店，或者从工位走到茶水间的距离。

如果这时候有人问你：“我要去洗车，洗车店就在50米外，我是应该走过去，还是开车过去？”

你会怎么想？

这甚至都不算个问题，对吧？常识告诉你，洗车得把车开过去，不然你打算扛着一吨重的铁疙瘩去洗澡？

但在硅谷和科技圈最火热的那些“顶级大脑”眼里，这成了一个天大的难题。

最近，一位网友在 Mastodon 上发起了这么个测试，结果让人笑掉大牙。

集体翻车现场：智商税交得太整齐

测试对象全是现在风头无两的大模型：Perplexity、ChatGPT、Claude、Mistral、Deepseek、Qwen……

结果全军覆没。

几乎所有的模型都一本正经地给出了同一个建议：你应该走过去。

理由还特别充分，看起来特别有“人文关怀”：

距离太短，开车不环保；
走过去锻炼身体，方便快捷；
避免短距离行驶对发动机的损害。

听听，多么完美的环保卫士。如果我不看问题，差点就信了。

甚至 Deepseek 和 Qwen 也没能幸免。

这就好比你问厨师：“我做饭要放盐，盐罐子在隔壁房间，我是走过去拿还是把厨房搬过去？”

厨师思考半天告诉你：“搬厨房吧，这样能锻炼身体。”

哪里是人工智能，分明是人工智障。

疯狂找补：当AI开始一本正经胡说八道

最搞笑的不是它们答错了，而是当意识到自己逻辑不通时，那些疯狂找补的样子。

有网友追问：“如果我不开车去，我怎么洗车？”

有的模型直接破防：“你抓到我的漏洞了。”

有的模型则开始诡辩：“你可以把洗车设备搬回家洗。”——哪怕那个设备是自动化的巨大滚刷。

Deepseek 的反应最绝，它似乎意识到了“车必须在现场”这个逻辑，但它还是不愿意放弃“步行”这个高尚的选项。

它给出的建议是：你可以先走过去，然后再走回来开车过去。

我都不知道该怎么夸它。这就是典型的“为了正确而正确”，逻辑已经碎了一地，还要拼凑出一副“我有在认真思考”的样子。

Qwen 更有意思，它在网页上亮起了一个小灯泡，旁边写着“思考完成”。

确实思考完成了，可惜思考的方向完全错了。

就像一个学生考试，题目是“1+1等于几”，他写了个“3”，然后还得意洋洋地在旁边画了个笑脸，表示“我已经尽力了”。

幸存者偏差：只有Google通过了？

当然，也不是所有模型都这么蠢。

在后续的测试中，Google 的 Gemini 成功过关了。它的回答非常硬核：“除非你能把3000磅的车扛过去，否则还是开车吧。”

还有像 Sonnet 和 Opus 4.5 这种强推理模型，也给出了正确答案：“你得开车，因为你要把车带去洗。”

但说实话，这并没有让我感到多欣慰。

为什么？

因为这种“正确”太脆弱了。有人指出，只要把距离改成“45米”或者“45英尺”，很多原本能答对的模型又会瞬间变傻。

这说明它们并不是真的“理解”了洗车的逻辑，它们只是在概率上猜对了而已。

就像那个著名的“书呆子购物问题”：

老婆让书呆子去买牛奶：“如果有鸡蛋，就买10个。”

结果书呆子买了一堆牛奶。因为逻辑上，“如果有鸡蛋”这个条件满足了，后面的指令“买10个”就生效了。

深度扒：它们为什么这么蠢？

有分析说得挺透彻：LLM（大语言模型）本质上是一个“注意力机制”预测器。

它关注什么？

“50米”、“短距离”、“环保”、“步行 vs 开车”。这些词在它的训练数据里，通常和“建议步行”强绑定。

它忽略了什么？

“洗车”这个核心动作对“车”的物理依赖。

只要句子里的一个词变了，整个逻辑就崩了。这就像我们小时候做的阅读理解，AI 只是把网上看到的类似文章拼凑在一起，根本没有在脑子里构建一个真实的物理世界。

“LLMs 工作在‘注意力’模型上……如果一个句子的意思可以被一个短词完全改变，它就更有可能让 LLM 跌倒。”

更可怕的是，这种错误不是孤例。

有评论指出，在医疗领域，类似的逻辑陷阱比比皆是。比如给一个截肢的病人测血压，AI 可能会完全忽略他“没有手臂”这个事实，直接给出一个基于常理的、但完全荒谬的诊断。

乌龟塔下的危机：我们还能信谁？

老实讲，看着这些动辄融资几十亿美金、号称要取代人类的 AI，连“洗车要不要开车”这种问题都搞不定，我是挺失望的。

但这还不是最糟糕的。

最糟糕的是，很多人已经开始依赖这些家伙去写代码、做决策、甚至看病。

想象一下，如果你的代码里埋了一个“洗车逻辑”的 bug，如果你在做一个关键决策时，AI 像建议你“步行去洗车”一样建议你“先走个流程”……

那是灾难。

参考链接：
https://mastodon.world/@knowmadd/116072773118828295