Python考90分,Whitespace考0分:AI的"学霸"人设崩了

GPT-5.2在Python上能拿90%的分数,换成一种叫Whitespace的语言,直接归零。

不是50分,不是10分,是0%

AI配图

这不是段子。这是EsoLang-Bench最新基准测试的残酷现实。当全球顶尖大模型(对,就是你天天用的那些)被扔到Brainfuck、Befunge-98、Unlambda这些"变态"编程语言面前,它们的智商集体掉线。最好成绩4.2%,相当于一张满分100的卷子只拿了4分。

而它们在平时常用的Python上,能拿90分。

一场"恶意"的考试

说实话,这个测试有点欺负人。

研究团队选了五种esoteric languages(冷门/怪异编程语言):Brainfuck、Befunge-98、Whitespace、Unlambda和Shakespeare。这些语言的训练数据比Python少了5000到10万倍

什么概念?Python是互联网的原住民,而这些语言像是藏在地下室的手写密码。

测试规则很简单:80道编程题,从"Hello World"到复杂算法,分Easy、Medium、Hard、Extra-Hard四级。每个模型用各种 prompting 策略轮番上阵。

结果呢?

所有模型在Medium及以上难度全军覆没,0%。

Whitespace在所有配置下保持0%不败战绩。

AI配图

连最强的GPT-5.2,总体准确率也只有4.2%

Whitespace:看不见的降维打击

最惨烈的战场是Whitespace。

这种语言的语法只有三个元素:空格、制表符、换行。肉眼看起来就是一片空白,但程序就藏在这些空白里。

对人类来说已经够反人类了,对AI更是绝杀。

因为大模型的tokenizer(分词器)在处理Python时,"print"是一个token,"def"是一个token,高效优雅。但面对Whitespace,空格就是空格,它无法"看见"这些空格背后的语义

这就像让一个人闭着眼睛走迷宫,还要他描述墙的颜色。

研究数据显示,模型在这种语言上完全无法生成有效代码。不是逻辑错,是压根编译不过。这暴露了一个尴尬事实:AI所谓的"编程能力",可能只是对训练数据的高级模仿

错误图谱:每种语言都在嘲笑不同的短板

AI配图

有意思的是,不同语言暴露了模型不同的"脑残"模式。

Brainfuck(只有8个命令的极简语言)上,83.9%的错误是逻辑错误。模型能写出语法正确的代码,但算法是错的。这说明它"认识"这些命令,但不理解怎么组合它们解决问题。

Unlambda(函数式编程的怪胎)上,74.6%是编译错误。模型连有效的组合子表达式都写不出来,就像背英语单词只背了字母顺序。

Befunge-98(二维网格语言)上,93.4%是运行时错误,无限循环是家常便饭。

Shakespeare(用戏剧对话写代码)上,59.2%是运行时错误。模型能写出像莎士比亚戏剧的语法,但把"哈姆雷特"和"奥菲莉亚"的对话逻辑搞成一团浆糊。

这些错误分布像是一份体检报告,告诉我们在没有"标准答案"可抄时,AI的推理链条有多脆弱。

自我反思?没用。多智能体?更糟。

更让人意外的是策略对比。

研究团队试了五种 prompting 方法:零样本、少样本、思维链(CoT)、自我脚手架(Self-Scaffolding),还有多智能体系统。

少样本提示(Few-shot)相比零样本,没有显著提升(p=0.505)。这意味着给AI看几个例子,它也学不会在上下文中掌握新范式。

自我反思和多智能体系统更是负优化。加一个"critic"(评论家)角色或"planner"(规划者)角色,准确率不升反降。因为当所有组件都缺乏领域知识时,额外的LLM调用只是引入了更多噪声。

唯一有效的是Self-Scaffolding让模型根据解释器的错误信息反复迭代。这像是一个学生对着编译器报错一点点试,虽然笨,但比瞎猜强。

Agentic系统的微弱曙光

不过,故事有个小反转。

当研究人员给模型装上"手"——允许它们调用真实的解释器执行代码(Agentic模式,如Codex和Claude Code),成绩翻了约2倍

Codex在Brainfuck上拿到了13.8%,这是整个 benchmark 的单项最高分。

这说明什么?执行反馈循环可以部分弥补训练数据的缺失。AI还是不懂这些语言,但它能"试错"了。

但即便如此,13.8%距离及格线还很远。而且面对Whitespace,有工具也没用,依然是0%。

我们真的在创造智能,还是在造高级复读机?

这个测试最扎心的启示在于:当前大模型在代码生成上的高光表现,可能主要是训练数据规模的函数,而非通用推理能力的证明

Python的高分,是因为它被喂了千亿级别的代码片段;Whitespace的零分,是因为没人会无聊到用空格写程序喂给AI。

当遇到训练数据中经济不合理存在的知识(谁会花钱标注Whitespace?),AI的"理解"瞬间蒸发。

热门评论里有人调侃:"我也得0分,说明我也是靠记忆而非真正推理?"

但区别在于,人类看到Whitespace的文档,能学会;AI看了再多例子,在Medium难度以上依然0%

这才是差距。

所以下次当你看到某个模型宣称"code能力超越人类",记得问一句:是在Python上,还是在Whitespace上?

【kimi-k2.5锐评】:当AI在Whitespace面前集体归零,我们终于看清——所谓编程天才,不过是个背题高手,一旦超纲,连交白卷的姿势都透着训练数据的贫瘠。

参考链接:
https://esolang-bench.vercel.app/