别搞神经科学了，搞工程！可解释性新架构粉碎 LLM 黑盒，每个 token 都能查户口

老实讲，现在的大模型有时候就像个精神分裂的天才。

xAI 的 Grok 经常在政治立场上“发癫”，怎么调教都无济于事；

ChatGPT 时不时像个过度热情的推销员，满嘴好话却离题万里；更别提那些一本正经胡说八道的“幻觉”时刻。

面对几十亿甚至上万亿参数的神经网络，人类研究者就像在对着一个漆黑的盒子算命。

我们造出了神，却搞不懂神的脑回路。

但旧金山的一家初创公司 Guide Labs，刚刚决定把这块遮羞布给扯下来。

别搞神经科学了，搞工程

周一，Guide Labs 开源了一个 80 亿参数的大模型 Steerling-8B。

这玩意儿有什么稀奇？现在的模型动辄几千亿参数，80 亿听起来也就是个“小弟弟”。

但这个弟弟，是个“透明人”。

Steerling-8B 产出的每一个词，你都能顺着网线摸回去，找到它在训练数据里的“老家”。

它引用的事实依据从哪来？

它理解的幽默感是跟谁学的？

甚至它对性别的刻板印象源自哪段语料？

一切有迹可循。

Guide Labs 的 CEO Julius Adebayo 打了个特别形象的比方：

以前人们搞模型解释性，就像是在做“神经科学”——把模型当成一个已经长成的大脑，拿着手术刀去切片、去扫描，试图搞懂哪块脑区管什么。

但这太费劲了，而且经常误诊。

Adebayo 的思路是：别搞神经科学了，搞工程。

与其在模型训练完后费劲巴力地去猜它为什么这么干，不如从娘胎里就把它设计成“老实人”。

他们在模型里插了一层概念层，把数据像整理档案一样分门别类地塞进去。这就好比以前是往房间里乱扔书，现在是要上架入库，还得贴标签。

关掉偏见的开关

这事儿听起来简单，做起来简直是地狱难度。

Adebayo 在 MIT 读博期间就发现了这个问题。他在 2018 年合著的一篇论文里无情地指出：现有的深度学习模型理解方法，根本就不靠谱。

这就引出了一个让人头秃的问题：

如果你想让模型不歧视女性，你得在一万亿种编码可能性里，把那十亿个相关的参数全找出来，还得保证不误伤友军。

如果漏掉了一粒沙子，模型可能还是会突然冒出一句惊世骇俗的歧视言论。

现在的模型能不能改？能。但 Adebayo 说，那非常脆弱，稍不留神就把模型搞废了。

而 Steerling-8B 的逻辑是：既然我知道这些“坏心思”都在哪，那我就能精准地把它关掉。

想屏蔽版权素材？行。

想控制暴力内容？行。

想让它审批贷款时只看财务记录不看种族？也行。

这不再是玄学，这是开关。

牺牲灵性换安全？这笔账怎么算

看到这儿，可能有人要泼冷水了。

大模型最迷人的地方不就是那种“涌现”能力吗？就是那种老师没教过，学生自己悟出来的惊喜。

你把模型管得这么死，像个只会背书的书呆子，它还能有创造力吗？

说实话，我也挺担心这点的。万一它变成了一个只会复读的机器，那这技术也没啥意思。

有意思的是，Guide Labs 声称他们并没有扼杀这种灵性。

Adebayo 说他们的团队追踪到了所谓的“被发现的概念”。比如模型自己悟出了量子计算，这可不是训练数据里硬塞给它的。这就像是一个被管教很严的孩子，依然学会了独立思考。

而且，这个“听话”的孩子成绩还不错。Guide Labs 称，Steerling-8B 能达到现有模型 90% 的能力，但用的训练数据却更少。

这倒是挺反直觉的。通常我们觉得，要想马儿跑，就得给草吃，还得让马儿撒欢儿跑。现在看来，把路修平整了，可能跑起来更省劲。

900万美金的赌注：AI不能是个黑箱

这不仅仅是个技术玩具，这背后是真金白银的生意。

Guide Labs 从 Y Combinator 毕业不久，去年 11 月刚从 Initialized Capital 那里拿到了 900 万美元的种子轮融资。

资本为什么买单？因为“看不懂”正在成为 AI 落地最大的拦路虎。

在金融这种强监管行业，你敢用一个可能因为申请人的名字像某种族就拒贷的模型吗？在科研领域，AlphaFold 能算出蛋白质怎么折，但如果科学家不知道它为什么这么折，这结论就总差点意思。

Adebayo 甚至有点激进地表示，现在的模型训练方式“超级原始”。

他认为，随着模型越来越聪明，甚至走向超级智能，人类绝不能容忍一个“神秘莫测”的东西在背后替自己做决策。

这就像是你要把方向盘交给一个蒙着眼睛还要飙车的司机。

Steerling-8B 只是个开始，Guide Labs 的下一步是搞个更大的模型，还要开放 API。

虽然现在说“黑盒时代终结”还为时尚早，但至少有人拿起了锤子，准备把这堵墙砸个洞出来。毕竟，在这个充满不确定性的时代，我们需要的不仅仅是更聪明的 AI，更是更诚实的 AI。

你说呢？

——要我说，如果真的是超人智能，咱也别费那个劲了，猴子能理解人类吗？

参考链接：
https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/