1000 名候选人,一道“臭名昭著”的笔试题,原本是为了筛选出人类中最顶尖的大脑。
直到 Anthropic 自家的 Claude Opus 4.5 坐到了考桌前。
它不仅通过了考试,还在限定时间内拿到了和最优秀人类持平的分数。
这不仅仅是一次技术迭代,这是一场让招聘官陷入绝望的军备竞赛:当面试题无法区分人类和 AI,我们到底在招谁?
一道“臭名昭著”的笔试题
时间回到 2023 年 11 月,Anthropic 正在为 Claude Opus 3 的发布做准备。
他们搞定了昂贵的 TPU 和 GPU 集群,甚至搞定了庞大的 Trainium 集群,但唯独缺人——缺那种能把硬件性能压榨到极致的性能工程师。
标准的面试流程太慢,效率太低。于是,一位工程师花了整整两周,设计了一套“臭名昭著”的笔试题。
这不是那种让你在白板上写反转二叉树的 LeetCode 垃圾题。
这是一个模拟的加速器环境,像极了真实的 TPU。考生需要在一个 Python 模拟器里优化代码,面对手动管理的内存、VLIW 指令打包、SIMD 向量操作和多核分发。
这套题甚至允许考生使用 AI 工具——毕竟在工作中,这就是现实。
效果出奇的好。
大约 1000 名候选人完成了挑战,Anthropic 凭此组建了一支能打的性能工程团队。甚至有几个刚毕业的本科生,因为在这道题上展现出惊人的天赋,直接被破格录用。
有人为了解题玩嗨了,甚至超时去写一个完整的微型编译器。
那时候,人类还是考场的主宰。
当 Opus 4.5 坐在考场里
好景不长。
AI 的进化速度,快得像是在作弊。
到了 2025 年 5 月,Claude 3.7 Sonnet 已经能让一半以上的考生显得多余——如果你直接把题扔给它,它做得比大多数人都要好。
但这只是前奏。当 Claude Opus 4 的预发布版本进场时,它在 4 小时内拿出了比几乎所有人类都优化的方案。
招聘官还能勉强安慰自己:好吧,至少它还赢不了那几个最顶尖的人类大神。
然后,Claude Opus 4.5 来了。
在 2 小时的限时测试中,Opus 4.5 像个不知疲倦的做题家。它解决了初始瓶颈,搞定了常见的微优化,不到一小时就达到了及格线。
紧接着,它遇到了一个让大多数人类(包括之前的模型)都绝望的内存带宽瓶颈。
大多数人到这里就停了。但招聘官告诉它一个理论上能达到的周期数。
Opus 4.5 沉思了一会儿,找到了那个“作弊”技巧,绕过了瓶颈。它继续调试、调优、实现。
2 小时一到,它的分数持平了人类在同样时间内的最高纪录——而且那个人类还是重度依赖 AI 辅助才做到的。
考试失效了。
如果最优策略是“把题扔给 AI”,那这道题就失去了筛选人类的意义。
招聘官的绝望反击
Anthropic 的招聘官陷入了两难。
禁止 AI?别逗了,这违背了工程师的工作现实,而且根本防不住。
提高门槛?让人类必须“大幅超越 AI 的表现”?这更不现实。人类光读题和理解就要花掉一半时间,等他们开始动手,AI 早就把活干完了。
唯一的出路是:把题改得更难,更怪,更不像“正经工作”。
第一次尝试:更难的优化。
招聘官选了一个自己在工作中遇到的难题:2D TPU 寄存器上的数据转置,还要避免 Bank 冲突。这题难到什么程度?他让 Claude 帮忙实现修改,不到一天就搞定了。
结果呢?Claude Opus 4.5 给他上了一课。
它通过分析发现,根本不需要转置数据,可以直接转置计算。它直接重写了整个程序。
虽然这个技巧在真实场景行不通,招聘官赶紧修补了漏洞。但当他再次用“深度思考(ultrathink)”模式测试时,AI 还是解出来了。它甚至知道那些修补 Bank 冲突的生僻技巧。
AI 的训练数据里,藏着全人类程序员几十年的经验库。硬碰硬,人类赢不了。
第二次尝试:走偏门。
既然拼经验拼不过,那就拼“推理”和“新奇”。
招聘官把目光投向了 Zachtronics 的编程解谜游戏。这些游戏使用极度受限、怪异的指令集,强迫你用非常规的方式编程。
比如,程序被分割成多个只能容纳十几条指令的芯片,聪明的优化甚至需要把状态编码进指令指针里。
新笔试题诞生了:没有可视化工具,没有调试器。考生得自己想办法,要么打印日志,要么让 AI 帮你写个调试器。
这一次,Opus 4.5 失败了。
这种极度反直觉、缺乏训练数据的“怪题”,成了人类最后的防线。
虽然招聘官有点遗憾,因为这道题已经不像真实的工作了——“真实感”成了我们再也消费不起的奢侈品。
人类最后的防线
这场猫鼠游戏,真的分出胜负了吗?
Anthropic 把那个已经被 AI 攻破的“原始版笔试题”放到了 GitHub 上,向全人类发起挑战。
他们发现了一个有趣的现象:在无限时间的条件下,人类依然有优势。
虽然 AI 在 2 小时内就能跑出 1790 周期的成绩,甚至经过 11.5 小时的计算能跑到 1487 周期。
但人类提交过的最快解决方案,是 1363 周期。
“人类专家在足够长的时间跨度上,仍然优于当前的模型。”
这或许就是我们现在唯一的慰藉:
AI 是个不知疲倦的快手,它能迅速达到 80 分、90 分。但在那最后 10 分的极致优化里,在那些需要长期酝酿、打破常规的灵光一闪里,人类依然守着最后的堡垒。
只是,这道防线还能守多久?
如果你觉得自己能跑进 1487 周期,不妨去试试。
毕竟,这可能证明你还没被替代——至少今天还没有。
参考链接:
https://x.com/AnthropicAI/status/2014143403144200234