大厂封禁、模型造假？一个下午，我揭开了 AI 编程最大的谎言

6.7%。
这是 Grok Code Fast 1 在代码编辑任务上的原始准确率。说实话，这甚至不能叫“能用”，简直就是人工智障。

但就在同一个下午，我只改了一行代码配置，准确率直接飙到了 68.3%。

没有重新训练模型，没有调用什么秘密算法，甚至都没动模型本身的一根汗毛。

这事儿有点意思，甚至有点讽刺。现在所有人都在争论 GPT-5 和 Gemini 到底谁更强，仿佛模型就是一切。但老实讲，我们都搞错了重点。

真正的瓶颈，根本不是那个“大脑”，而是连接大脑和双手的——“Harness”（挽具/工具链）。

别再神话模型了，它只是个“飞行员”

现在的舆论环境很奇怪，大家把模型捧上了天。一旦代码写不出来，就是“模型太笨”，一旦逻辑不通，就是“推理能力不行”。

这锅，模型不背。

作者打了个很形象的比方：模型是飞行员，而 Harness 是起落架。如果飞机降落时出了事故，你确定是飞行员技术不行，而不是起落架卡住了？

AI配图

在这场测试里，作者并没有去优化 Grok 或者 Gemini 的“智商”，他只是换了一个让模型修改代码的工具。

结果呢？
Grok Code Fast 1 的准确率暴涨 10 倍。
MiniMax M2.1 直接翻倍。
就连强如 Gemini 3 Flash，准确率也提升了 5 个百分点，输出 Token 还减少了 21%。

这说明什么？
很多时候，模型完全理解你要干什么，它只是笨拙地不知道怎么“表达”出来。

旧时代的“补丁”是个笑话

为了让你明白为什么现在的工具这么烂，得先看看大厂们都在玩什么花样。

OpenAI 的 Codex 用的是 apply_patch。
这就好比你给模型一本只有 OpenAI 才能看懂的“天书”，让它照着画。GPT 系列当然没问题，毕竟是自己家养的。但换个别的模型？Groky 的补丁失败率高达 50.7%，GLM-4.7 也有 46.2%。它们不是不会写代码，是看不懂这本“天书”。

Claude 和大多数工具用的是 str_replace。
这更扯。模型必须精准地找到“旧代码”，然后完美替换。注意，是“完美”，包括空格、缩换行，一个字符都不能错。
只要文件里有一点点变动，或者模型手抖多打了一个空格，就会报错：“String to replace not found”。
这错误太常见了，常见到 GitHub 上都有专门的“吐槽贴”。

甚至还有像 Cursor 这种土豪公司，专门训练了一个 700 亿参数的模型，就为了帮主模型“合并代码”。
你说这事儿荒谬不荒谬？为了解决工具不好用的问题，又扔进去一个模型。

AI配图

Hashline：给代码每一行都贴上“标签”

作者实在看不下去了，搞了个叫 Hashline 的新玩法。

逻辑简单得令人发指：
当模型读取代码文件时，每一行都会被自动打上一个 2-3 个字符的哈希标签。

比如这样：

22:f1|  return "world";
33:0e|}

模型想改代码的时候，不需要复制那一大坨旧文本，也不需要操心空格对不对。它只需要说：“把标签为 22:f1 的那一行，改成 xxx。”

就这么简单。

如果文件被改过了，哈希对不上，操作直接拒绝，绝对不会改错地方。

这就像给图书馆的每一本书都装了定位芯片。以前你得把书架上的书背下来才能找书，现在你直接报坐标。

测试结果太残暴了。
作者选了 React 代码库里的随机文件，故意制造 Bug，然后让 16 个顶级模型去修。
结果毫无悬念：Patch 模式几乎全军覆没，Hashline 吊打全场。

弱鸡模型翻身做主人，强者模型变得更强更省流。

我帮大厂优化了模型，大厂反手把我封了

故事讲到这儿，本该是个“技术改变世界”的爽文剧本。
但接下来的剧情，有点让人看不懂，甚至有点生气。

作者搞这个测试，相当于给大厂们做了免费的 R&D。
他证明了，只要换个工具格式，Google 的 Gemini 3 Flash 准确率能提 5 到 14 个点，还能省下 20% 的算力成本。

这明明是好事吧？

结果 Google 直接把他的账号给封了。

Image 1: Google disabled my Gemini account

不是限流，不是警告，是直接 Disabled。理由不明。
同样的事也发生在 Anthropic 身上。他们封杀了一个热门的开源编码代理 OpenCode，理由是“逆向工程私有 API”。

这信号太明显了：
“别想自己搞工具，用我们的。”

Anthropic 不会为 Grok 优化工具，xAI 不会为 Gemini 调试接口。每家都在筑墙，都想把用户锁在自己的生态里。

我个人觉得，这种做法极其短视。

模型确实是你的护城河，但 Harness 是通往护城河的桥。你现在把桥炸了，指望大家都游过去吗？

AI配图

开源社区之所以强大，就是因为我们不挑食。不管你是 GPT、Claude 还是 Grok，只要好用，我们就给你造最好的方向盘。

最后的余韵

这篇文章不是要否定模型的价值，而是要把视线从“神坛”拉回“地面”。

那个从“酷炫 Demo”变成“可靠工具”的最后一公里，靠的不是什么神秘的大模型魔法，而是这些枯燥、甚至有点笨拙的工程细节。

Harness 的问题终会被解决。
我只希望，解决它的不是某一家关起门来的公司，而是所有愿意动手的人。

毕竟，谁也不想因为一个空格对不上，就怪罪整个 AI 时代不行吧？

参考链接：
http://blog.can.ac/2026/02/12/the-harness-problem/