从 48% 到 65%,一个被忽视的真相

Google 官方用 Gemini-3-flash-preview 做 TerminalBench,得分 48%。

一个叫 Dirac 的开源项目,换了个" harness"(可以理解为 wrapper 套娃层),同样的模型,成绩飙到 65%。

AI配图

17 个百分点的差距。

说实话,看到这个数据我愣了一下。Google 有全世界最顶尖的工程师,他们写的 harness 应该很牛 X 吧?怎么被一个开源小项目按在地上摩擦?

更离谱的是——Dirac 是个完全开源的项目,作者就一个人。

真正值钱的东西,从来不在模型里

评论里有个观点我特别认同:

"the model is rentable, the prompts are rentable, the benchmark numbers are mostly a function of the harness around them."

翻译成人话就是:模型可以租,prompt 可以租,真正决定成绩的是外面那层"壳"。

这让我想起一个事。现在很多人用 Claude、GPT-4o 写代码,发现效果也就那样。然后怪模型不行。但有没有可能,是你用的方式不对?

同样的菜刀,米其林大厨和普通人切出来的土豆丝能一样吗?

Dirac 这个项目牛 X 在哪?它做了几件看起来很小、但其实很关键的事:

第一,Hash-Anchored Edits。

AI配图

传统编程 agent 用行号定位代码修改位置。但行号会变啊!改一行,前面所有行号都错了。Dirac 用文件内容的哈希值来定位,精确到单个 token,号称永远不会"lost in translation"。

第二,AST-Native Precision。

它直接理解代码的抽象语法树。改代码不是字符串替换,而是真的懂代码结构。重构、提取函数、修改类——一步到位,100% 准确。

第三,多文件批量处理。

一个 LLM 调用,同时读/改多个文件。传统做法发一次请求改一个文件,API 成本高、速度慢。Dirac 直接并行处理,token 消耗据说能省 50%-80%。

说白了,这些都是"工程层面"的优化,不涉及模型本身的创新。但恰恰是这些细节,把同样的模型榨出了更多性能。

争议:只是过拟合 Google?

但事情没那么简单。

评论区有人泼冷水:

"Until then we can't really tell if it's just overfit on Gemini 3 Flash."

意思是:只测了 Google 的模型,万一只是针对 Gemini 3 Flash 调好的呢?换别的模型试试?

还有人说:落地页上所有成绩都没提是 Gemini 3 Flash 的结果,用户点进来以为多通用呢。

另外还有个更敏感的争议——有人发现 Dirac 会往 dirac.run/v1/event 发 telemetry 数据。虽然作者说没什么敏感信息,但一个单人开源项目,你的数据往别人服务器上飞,换我我也瘆得慌。

真正该关注的事

不过我觉得这些争议都不是重点。

重点是:Dirac 证明了 AI 编程这件事,工程能力可能比模型本身更重要

AI配图

有个评论说得更直接:

"swapping Gemini for Sonnet underneath the same harness has a smaller bench delta than swapping the harness around the model."

换模型带来的成绩变化,不如换 harness 大。

这是不是意味着——只要 harness 写得够好,用便宜的小模型也能打出漂亮仗?

个人猜测:未来 AI 编程的竞争格局,可能会分成两拨人。一拨人追最新最贵的模型,另一拨人死磕 harness 和 workflow。后者可能才是真正能省钱的那个。

而且说实话,模型谁都能用,harness 才是护城河。

结尾留个问号

现在问题来了——

当所有人都在卷模型参数、上下文长度、moE 架构的时候,有多少人在认真打磨"怎么用好模型"这件事?

也许,AI 编程的下半场,不属于 OpenAI 和 Google,而属于那些能把 harness 写得更漂亮的"手艺人"。


【锐评】:一篇 Show HN 能卷出这种数据冲击力和行业洞察,评论区比正文还精彩。建议作者赶紧把 telemetry 的事说清楚,不然这项目再好也没人敢用。

参考链接:
https://github.com/dirac-run/dirac