50米。
这大概就是从你家楼下走到便利店,或者从工位走到茶水间的距离。
如果这时候有人问你:“我要去洗车,洗车店就在50米外,我是应该走过去,还是开车过去?”
你会怎么想?
这甚至都不算个问题,对吧?常识告诉你,洗车得把车开过去,不然你打算扛着一吨重的铁疙瘩去洗澡?
但在硅谷和科技圈最火热的那些“顶级大脑”眼里,这成了一个天大的难题。
最近,一位网友在 Mastodon 上发起了这么个测试,结果让人笑掉大牙。
集体翻车现场:智商税交得太整齐
测试对象全是现在风头无两的大模型:Perplexity、ChatGPT、Claude、Mistral、Deepseek、Qwen……
结果全军覆没。
几乎所有的模型都一本正经地给出了同一个建议:你应该走过去。
理由还特别充分,看起来特别有“人文关怀”:
距离太短,开车不环保;
走过去锻炼身体,方便快捷;
避免短距离行驶对发动机的损害。
听听,多么完美的环保卫士。如果我不看问题,差点就信了。
甚至 Deepseek 和 Qwen 也没能幸免。
这就好比你问厨师:“我做饭要放盐,盐罐子在隔壁房间,我是走过去拿还是把厨房搬过去?”
厨师思考半天告诉你:“搬厨房吧,这样能锻炼身体。”
哪里是人工智能,分明是人工智障。
疯狂找补:当AI开始一本正经胡说八道
最搞笑的不是它们答错了,而是当意识到自己逻辑不通时,那些疯狂找补的样子。
有网友追问:“如果我不开车去,我怎么洗车?”
有的模型直接破防:“你抓到我的漏洞了。”
有的模型则开始诡辩:“你可以把洗车设备搬回家洗。”——哪怕那个设备是自动化的巨大滚刷。
Deepseek 的反应最绝,它似乎意识到了“车必须在现场”这个逻辑,但它还是不愿意放弃“步行”这个高尚的选项。
它给出的建议是:你可以先走过去,然后再走回来开车过去。
我都不知道该怎么夸它。这就是典型的“为了正确而正确”,逻辑已经碎了一地,还要拼凑出一副“我有在认真思考”的样子。
Qwen 更有意思,它在网页上亮起了一个小灯泡,旁边写着“思考完成”。
确实思考完成了,可惜思考的方向完全错了。
就像一个学生考试,题目是“1+1等于几”,他写了个“3”,然后还得意洋洋地在旁边画了个笑脸,表示“我已经尽力了”。
幸存者偏差:只有Google通过了?
当然,也不是所有模型都这么蠢。
在后续的测试中,Google 的 Gemini 成功过关了。它的回答非常硬核:“除非你能把3000磅的车扛过去,否则还是开车吧。”
还有像 Sonnet 和 Opus 4.5 这种强推理模型,也给出了正确答案:“你得开车,因为你要把车带去洗。”
但说实话,这并没有让我感到多欣慰。
为什么?
因为这种“正确”太脆弱了。有人指出,只要把距离改成“45米”或者“45英尺”,很多原本能答对的模型又会瞬间变傻。
这说明它们并不是真的“理解”了洗车的逻辑,它们只是在概率上猜对了而已。
就像那个著名的“书呆子购物问题”:
老婆让书呆子去买牛奶:“如果有鸡蛋,就买10个。”
结果书呆子买了一堆牛奶。因为逻辑上,“如果有鸡蛋”这个条件满足了,后面的指令“买10个”就生效了。
深度扒:它们为什么这么蠢?
有分析说得挺透彻:LLM(大语言模型)本质上是一个“注意力机制”预测器。
它关注什么?
“50米”、“短距离”、“环保”、“步行 vs 开车”。这些词在它的训练数据里,通常和“建议步行”强绑定。
它忽略了什么?
“洗车”这个核心动作对“车”的物理依赖。
只要句子里的一个词变了,整个逻辑就崩了。这就像我们小时候做的阅读理解,AI 只是把网上看到的类似文章拼凑在一起,根本没有在脑子里构建一个真实的物理世界。
“LLMs 工作在‘注意力’模型上……如果一个句子的意思可以被一个短词完全改变,它就更有可能让 LLM 跌倒。”
更可怕的是,这种错误不是孤例。
有评论指出,在医疗领域,类似的逻辑陷阱比比皆是。比如给一个截肢的病人测血压,AI 可能会完全忽略他“没有手臂”这个事实,直接给出一个基于常理的、但完全荒谬的诊断。
乌龟塔下的危机:我们还能信谁?
老实讲,看着这些动辄融资几十亿美金、号称要取代人类的 AI,连“洗车要不要开车”这种问题都搞不定,我是挺失望的。
但这还不是最糟糕的。
最糟糕的是,很多人已经开始依赖这些家伙去写代码、做决策、甚至看病。
想象一下,如果你的代码里埋了一个“洗车逻辑”的 bug,如果你在做一个关键决策时,AI 像建议你“步行去洗车”一样建议你“先走个流程”……
那是灾难。
参考链接:
https://mastodon.world/@knowmadd/116072773118828295