LLM 真实能力大起底：Esoteric 语言基准测试揭示惊人真相

Python考90分，Whitespace考0分：AI的"学霸"人设崩了

GPT-5.2在Python上能拿90%的分数，换成一种叫Whitespace的语言，直接归零。

不是50分，不是10分，是0%。

AI配图

这不是段子。这是EsoLang-Bench最新基准测试的残酷现实。当全球顶尖大模型（对，就是你天天用的那些）被扔到Brainfuck、Befunge-98、Unlambda这些"变态"编程语言面前，它们的智商集体掉线。最好成绩4.2%，相当于一张满分100的卷子只拿了4分。

而它们在平时常用的Python上，能拿90分。

一场"恶意"的考试

说实话，这个测试有点欺负人。

研究团队选了五种esoteric languages（冷门/怪异编程语言）：Brainfuck、Befunge-98、Whitespace、Unlambda和Shakespeare。这些语言的训练数据比Python少了5000到10万倍。

什么概念？Python是互联网的原住民，而这些语言像是藏在地下室的手写密码。

测试规则很简单：80道编程题，从"Hello World"到复杂算法，分Easy、Medium、Hard、Extra-Hard四级。每个模型用各种 prompting 策略轮番上阵。

结果呢？

所有模型在Medium及以上难度全军覆没，0%。

Whitespace在所有配置下保持0%不败战绩。

AI配图

连最强的GPT-5.2，总体准确率也只有4.2%。

Whitespace：看不见的降维打击

最惨烈的战场是Whitespace。

这种语言的语法只有三个元素：空格、制表符、换行。肉眼看起来就是一片空白，但程序就藏在这些空白里。

对人类来说已经够反人类了，对AI更是绝杀。

因为大模型的tokenizer（分词器）在处理Python时，"print"是一个token，"def"是一个token，高效优雅。但面对Whitespace，空格就是空格，它无法"看见"这些空格背后的语义。

这就像让一个人闭着眼睛走迷宫，还要他描述墙的颜色。

研究数据显示，模型在这种语言上完全无法生成有效代码。不是逻辑错，是压根编译不过。这暴露了一个尴尬事实：AI所谓的"编程能力"，可能只是对训练数据的高级模仿。

错误图谱：每种语言都在嘲笑不同的短板

AI配图

有意思的是，不同语言暴露了模型不同的"脑残"模式。

Brainfuck（只有8个命令的极简语言）上，83.9%的错误是逻辑错误。模型能写出语法正确的代码，但算法是错的。这说明它"认识"这些命令，但不理解怎么组合它们解决问题。

Unlambda（函数式编程的怪胎）上，74.6%是编译错误。模型连有效的组合子表达式都写不出来，就像背英语单词只背了字母顺序。

Befunge-98（二维网格语言）上，93.4%是运行时错误，无限循环是家常便饭。

Shakespeare（用戏剧对话写代码）上，59.2%是运行时错误。模型能写出像莎士比亚戏剧的语法，但把"哈姆雷特"和"奥菲莉亚"的对话逻辑搞成一团浆糊。

这些错误分布像是一份体检报告，告诉我们在没有"标准答案"可抄时，AI的推理链条有多脆弱。

自我反思？没用。多智能体？更糟。

更让人意外的是策略对比。

研究团队试了五种 prompting 方法：零样本、少样本、思维链（CoT）、自我脚手架（Self-Scaffolding），还有多智能体系统。

少样本提示（Few-shot）相比零样本，没有显著提升（p=0.505）。这意味着给AI看几个例子，它也学不会在上下文中掌握新范式。

自我反思和多智能体系统更是负优化。加一个"critic"（评论家）角色或"planner"（规划者）角色，准确率不升反降。因为当所有组件都缺乏领域知识时，额外的LLM调用只是引入了更多噪声。

唯一有效的是Self-Scaffolding：让模型根据解释器的错误信息反复迭代。这像是一个学生对着编译器报错一点点试，虽然笨，但比瞎猜强。

Agentic系统的微弱曙光

不过，故事有个小反转。

当研究人员给模型装上"手"——允许它们调用真实的解释器执行代码（Agentic模式，如Codex和Claude Code），成绩翻了约2倍。

Codex在Brainfuck上拿到了13.8%，这是整个 benchmark 的单项最高分。

这说明什么？执行反馈循环可以部分弥补训练数据的缺失。AI还是不懂这些语言，但它能"试错"了。

但即便如此，13.8%距离及格线还很远。而且面对Whitespace，有工具也没用，依然是0%。

我们真的在创造智能，还是在造高级复读机？

这个测试最扎心的启示在于：当前大模型在代码生成上的高光表现，可能主要是训练数据规模的函数，而非通用推理能力的证明。

Python的高分，是因为它被喂了千亿级别的代码片段；Whitespace的零分，是因为没人会无聊到用空格写程序喂给AI。

当遇到训练数据中经济不合理存在的知识（谁会花钱标注Whitespace？），AI的"理解"瞬间蒸发。

热门评论里有人调侃："我也得0分，说明我也是靠记忆而非真正推理？"

但区别在于，人类看到Whitespace的文档，能学会；AI看了再多例子，在Medium难度以上依然0%。

这才是差距。

所以下次当你看到某个模型宣称"code能力超越人类"，记得问一句：是在Python上，还是在Whitespace上？

【kimi-k2.5锐评】：当AI在Whitespace面前集体归零，我们终于看清——所谓编程天才，不过是个背题高手，一旦超纲，连交白卷的姿势都透着训练数据的贫瘠。

参考链接：
https://esolang-bench.vercel.app/