Anthropic 的面试题被自家 AI 破解了：一场关于人类价值的猫鼠游戏

1000 名候选人，一道“臭名昭著”的笔试题，原本是为了筛选出人类中最顶尖的大脑。

直到 Anthropic 自家的 Claude Opus 4.5 坐到了考桌前。

它不仅通过了考试，还在限定时间内拿到了和最优秀人类持平的分数。

这不仅仅是一次技术迭代，这是一场让招聘官陷入绝望的军备竞赛：当面试题无法区分人类和 AI，我们到底在招谁？

一道“臭名昭著”的笔试题

AI配图

时间回到 2023 年 11 月，Anthropic 正在为 Claude Opus 3 的发布做准备。

他们搞定了昂贵的 TPU 和 GPU 集群，甚至搞定了庞大的 Trainium 集群，但唯独缺人——缺那种能把硬件性能压榨到极致的性能工程师。

标准的面试流程太慢，效率太低。于是，一位工程师花了整整两周，设计了一套“臭名昭著”的笔试题。

这不是那种让你在白板上写反转二叉树的 LeetCode 垃圾题。

这是一个模拟的加速器环境，像极了真实的 TPU。考生需要在一个 Python 模拟器里优化代码，面对手动管理的内存、VLIW 指令打包、SIMD 向量操作和多核分发。

这套题甚至允许考生使用 AI 工具——毕竟在工作中，这就是现实。

效果出奇的好。

大约 1000 名候选人完成了挑战，Anthropic 凭此组建了一支能打的性能工程团队。甚至有几个刚毕业的本科生，因为在这道题上展现出惊人的天赋，直接被破格录用。

有人为了解题玩嗨了，甚至超时去写一个完整的微型编译器。

那时候，人类还是考场的主宰。

当 Opus 4.5 坐在考场里

好景不长。

AI 的进化速度，快得像是在作弊。

到了 2025 年 5 月，Claude 3.7 Sonnet 已经能让一半以上的考生显得多余——如果你直接把题扔给它，它做得比大多数人都要好。

但这只是前奏。当 Claude Opus 4 的预发布版本进场时，它在 4 小时内拿出了比几乎所有人类都优化的方案。

招聘官还能勉强安慰自己：好吧，至少它还赢不了那几个最顶尖的人类大神。

然后，Claude Opus 4.5 来了。

在 2 小时的限时测试中，Opus 4.5 像个不知疲倦的做题家。它解决了初始瓶颈，搞定了常见的微优化，不到一小时就达到了及格线。

紧接着，它遇到了一个让大多数人类（包括之前的模型）都绝望的内存带宽瓶颈。

大多数人到这里就停了。但招聘官告诉它一个理论上能达到的周期数。

Opus 4.5 沉思了一会儿，找到了那个“作弊”技巧，绕过了瓶颈。它继续调试、调优、实现。

2 小时一到，它的分数持平了人类在同样时间内的最高纪录——而且那个人类还是重度依赖 AI 辅助才做到的。

考试失效了。

如果最优策略是“把题扔给 AI”，那这道题就失去了筛选人类的意义。

招聘官的绝望反击

Anthropic 的招聘官陷入了两难。

禁止 AI？别逗了，这违背了工程师的工作现实，而且根本防不住。

提高门槛？让人类必须“大幅超越 AI 的表现”？这更不现实。人类光读题和理解就要花掉一半时间，等他们开始动手，AI 早就把活干完了。

唯一的出路是：把题改得更难，更怪，更不像“正经工作”。

第一次尝试：更难的优化。

招聘官选了一个自己在工作中遇到的难题：2D TPU 寄存器上的数据转置，还要避免 Bank 冲突。这题难到什么程度？他让 Claude 帮忙实现修改，不到一天就搞定了。

结果呢？Claude Opus 4.5 给他上了一课。

它通过分析发现，根本不需要转置数据，可以直接转置计算。它直接重写了整个程序。

虽然这个技巧在真实场景行不通，招聘官赶紧修补了漏洞。但当他再次用“深度思考（ultrathink）”模式测试时，AI 还是解出来了。它甚至知道那些修补 Bank 冲突的生僻技巧。

AI 的训练数据里，藏着全人类程序员几十年的经验库。硬碰硬，人类赢不了。

第二次尝试：走偏门。

既然拼经验拼不过，那就拼“推理”和“新奇”。

招聘官把目光投向了 Zachtronics 的编程解谜游戏。这些游戏使用极度受限、怪异的指令集，强迫你用非常规的方式编程。

AI配图

比如，程序被分割成多个只能容纳十几条指令的芯片，聪明的优化甚至需要把状态编码进指令指针里。

新笔试题诞生了：没有可视化工具，没有调试器。考生得自己想办法，要么打印日志，要么让 AI 帮你写个调试器。

这一次，Opus 4.5 失败了。

这种极度反直觉、缺乏训练数据的“怪题”，成了人类最后的防线。

虽然招聘官有点遗憾，因为这道题已经不像真实的工作了——“真实感”成了我们再也消费不起的奢侈品。

人类最后的防线

这场猫鼠游戏，真的分出胜负了吗？

Anthropic 把那个已经被 AI 攻破的“原始版笔试题”放到了 GitHub 上，向全人类发起挑战。

他们发现了一个有趣的现象：在无限时间的条件下，人类依然有优势。

AI配图

虽然 AI 在 2 小时内就能跑出 1790 周期的成绩，甚至经过 11.5 小时的计算能跑到 1487 周期。

但人类提交过的最快解决方案，是 1363 周期。

“人类专家在足够长的时间跨度上，仍然优于当前的模型。”

这或许就是我们现在唯一的慰藉：

AI 是个不知疲倦的快手，它能迅速达到 80 分、90 分。但在那最后 10 分的极致优化里，在那些需要长期酝酿、打破常规的灵光一闪里，人类依然守着最后的堡垒。

只是，这道防线还能守多久？

如果你觉得自己能跑进 1487 周期，不妨去试试。

毕竟，这可能证明你还没被替代——至少今天还没有。

参考链接：
https://x.com/AnthropicAI/status/2014143403144200234