一个小团队做的"套壳工具"，把 Google 的官方成绩按在地上摩擦

从 48% 到 65%，一个被忽视的真相

Google 官方用 Gemini-3-flash-preview 做 TerminalBench，得分 48%。

一个叫 Dirac 的开源项目，换了个" harness"（可以理解为 wrapper 套娃层），同样的模型，成绩飙到 65%。

AI配图

17 个百分点的差距。

说实话，看到这个数据我愣了一下。Google 有全世界最顶尖的工程师，他们写的 harness 应该很牛 X 吧？怎么被一个开源小项目按在地上摩擦？

更离谱的是——Dirac 是个完全开源的项目，作者就一个人。

评论里有个观点我特别认同：

"the model is rentable, the prompts are rentable, the benchmark numbers are mostly a function of the harness around them."

翻译成人话就是：模型可以租，prompt 可以租，真正决定成绩的是外面那层"壳"。

这让我想起一个事。现在很多人用 Claude、GPT-4o 写代码，发现效果也就那样。然后怪模型不行。但有没有可能，是你用的方式不对？

同样的菜刀，米其林大厨和普通人切出来的土豆丝能一样吗？

Dirac 这个项目牛 X 在哪？它做了几件看起来很小、但其实很关键的事：

第一，Hash-Anchored Edits。

AI配图

传统编程 agent 用行号定位代码修改位置。但行号会变啊！改一行，前面所有行号都错了。Dirac 用文件内容的哈希值来定位，精确到单个 token，号称永远不会"lost in translation"。

第二，AST-Native Precision。

它直接理解代码的抽象语法树。改代码不是字符串替换，而是真的懂代码结构。重构、提取函数、修改类——一步到位，100% 准确。

第三，多文件批量处理。

一个 LLM 调用，同时读/改多个文件。传统做法发一次请求改一个文件，API 成本高、速度慢。Dirac 直接并行处理，token 消耗据说能省 50%-80%。

说白了，这些都是"工程层面"的优化，不涉及模型本身的创新。但恰恰是这些细节，把同样的模型榨出了更多性能。

但事情没那么简单。

评论区有人泼冷水：

"Until then we can't really tell if it's just overfit on Gemini 3 Flash."

意思是：只测了 Google 的模型，万一只是针对 Gemini 3 Flash 调好的呢？换别的模型试试？

还有人说：落地页上所有成绩都没提是 Gemini 3 Flash 的结果，用户点进来以为多通用呢。

另外还有个更敏感的争议——有人发现 Dirac 会往 dirac.run/v1/event 发 telemetry 数据。虽然作者说没什么敏感信息，但一个单人开源项目，你的数据往别人服务器上飞，换我我也瘆得慌。

不过我觉得这些争议都不是重点。

重点是：Dirac 证明了 AI 编程这件事，工程能力可能比模型本身更重要。

AI配图

有个评论说得更直接：

"swapping Gemini for Sonnet underneath the same harness has a smaller bench delta than swapping the harness around the model."

换模型带来的成绩变化，不如换 harness 大。

这是不是意味着——只要 harness 写得够好，用便宜的小模型也能打出漂亮仗？

个人猜测：未来 AI 编程的竞争格局，可能会分成两拨人。一拨人追最新最贵的模型，另一拨人死磕 harness 和 workflow。后者可能才是真正能省钱的那个。

而且说实话，模型谁都能用，harness 才是护城河。

现在问题来了——

当所有人都在卷模型参数、上下文长度、moE 架构的时候，有多少人在认真打磨"怎么用好模型"这件事？

也许，AI 编程的下半场，不属于 OpenAI 和 Google，而属于那些能把 harness 写得更漂亮的"手艺人"。

【锐评】：一篇 Show HN 能卷出这种数据冲击力和行业洞察，评论区比正文还精彩。建议作者赶紧把 telemetry 的事说清楚，不然这项目再好也没人敢用。

参考链接：
https://github.com/dirac-run/dirac