6.7%
这是 Grok Code Fast 1 在代码编辑任务上的原始准确率。说实话,这甚至不能叫“能用”,简直就是人工智障。

但就在同一个下午,我只改了一行代码配置,准确率直接飙到了 68.3%

没有重新训练模型,没有调用什么秘密算法,甚至都没动模型本身的一根汗毛。

这事儿有点意思,甚至有点讽刺。现在所有人都在争论 GPT-5 和 Gemini 到底谁更强,仿佛模型就是一切。但老实讲,我们都搞错了重点。

真正的瓶颈,根本不是那个“大脑”,而是连接大脑和双手的——“Harness”(挽具/工具链)

别再神话模型了,它只是个“飞行员”

现在的舆论环境很奇怪,大家把模型捧上了天。一旦代码写不出来,就是“模型太笨”,一旦逻辑不通,就是“推理能力不行”。

这锅,模型不背。

作者打了个很形象的比方:模型是飞行员,而 Harness 是起落架。如果飞机降落时出了事故,你确定是飞行员技术不行,而不是起落架卡住了?

AI配图

在这场测试里,作者并没有去优化 Grok 或者 Gemini 的“智商”,他只是换了一个让模型修改代码的工具。

结果呢?
Grok Code Fast 1 的准确率暴涨 10 倍
MiniMax M2.1 直接翻倍。
就连强如 Gemini 3 Flash,准确率也提升了 5 个百分点,输出 Token 还减少了 21%。

这说明什么?
很多时候,模型完全理解你要干什么,它只是笨拙地不知道怎么“表达”出来。

旧时代的“补丁”是个笑话

为了让你明白为什么现在的工具这么烂,得先看看大厂们都在玩什么花样。

OpenAI 的 Codex 用的是 apply_patch
这就好比你给模型一本只有 OpenAI 才能看懂的“天书”,让它照着画。GPT 系列当然没问题,毕竟是自己家养的。但换个别的模型?Groky 的补丁失败率高达 50.7%,GLM-4.7 也有 46.2%。它们不是不会写代码,是看不懂这本“天书”。

Claude 和大多数工具用的是 str_replace
这更扯。模型必须精准地找到“旧代码”,然后完美替换。注意,是“完美”,包括空格、缩换行,一个字符都不能错。
只要文件里有一点点变动,或者模型手抖多打了一个空格,就会报错:“String to replace not found”。
这错误太常见了,常见到 GitHub 上都有专门的“吐槽贴”。

甚至还有像 Cursor 这种土豪公司,专门训练了一个 700 亿参数的模型,就为了帮主模型“合并代码”。
你说这事儿荒谬不荒谬?为了解决工具不好用的问题,又扔进去一个模型。

AI配图

Hashline:给代码每一行都贴上“标签”

作者实在看不下去了,搞了个叫 Hashline 的新玩法。

逻辑简单得令人发指:
当模型读取代码文件时,每一行都会被自动打上一个 2-3 个字符的哈希标签。

比如这样:

22:f1|  return "world";
33:0e|}

模型想改代码的时候,不需要复制那一大坨旧文本,也不需要操心空格对不对。它只需要说:“把标签为 22:f1 的那一行,改成 xxx。”

就这么简单。

如果文件被改过了,哈希对不上,操作直接拒绝,绝对不会改错地方。

这就像给图书馆的每一本书都装了定位芯片。以前你得把书架上的书背下来才能找书,现在你直接报坐标。

测试结果太残暴了。
作者选了 React 代码库里的随机文件,故意制造 Bug,然后让 16 个顶级模型去修。
结果毫无悬念:Patch 模式几乎全军覆没,Hashline 吊打全场。

弱鸡模型翻身做主人,强者模型变得更强更省流。

我帮大厂优化了模型,大厂反手把我封了

故事讲到这儿,本该是个“技术改变世界”的爽文剧本。
但接下来的剧情,有点让人看不懂,甚至有点生气。

作者搞这个测试,相当于给大厂们做了免费的 R&D。
他证明了,只要换个工具格式,Google 的 Gemini 3 Flash 准确率能提 5 到 14 个点,还能省下 20% 的算力成本。

这明明是好事吧?

结果 Google 直接把他的账号给封了。

Image 1: Google disabled my Gemini account

不是限流,不是警告,是直接 Disabled。理由不明。
同样的事也发生在 Anthropic 身上。他们封杀了一个热门的开源编码代理 OpenCode,理由是“逆向工程私有 API”。

这信号太明显了:
“别想自己搞工具,用我们的。”

Anthropic 不会为 Grok 优化工具,xAI 不会为 Gemini 调试接口。每家都在筑墙,都想把用户锁在自己的生态里。

我个人觉得,这种做法极其短视。

模型确实是你的护城河,但 Harness 是通往护城河的桥。你现在把桥炸了,指望大家都游过去吗?

AI配图

开源社区之所以强大,就是因为我们不挑食。不管你是 GPT、Claude 还是 Grok,只要好用,我们就给你造最好的方向盘。

最后的余韵

这篇文章不是要否定模型的价值,而是要把视线从“神坛”拉回“地面”。

那个从“酷炫 Demo”变成“可靠工具”的最后一公里,靠的不是什么神秘的大模型魔法,而是这些枯燥、甚至有点笨拙的工程细节。

Harness 的问题终会被解决。
我只希望,解决它的不是某一家关起门来的公司,而是所有愿意动手的人。

毕竟,谁也不想因为一个空格对不上,就怪罪整个 AI 时代不行吧?

参考链接:
http://blog.can.ac/2026/02/12/the-harness-problem/