老实讲,现在的大模型有时候就像个精神分裂的天才。

xAI 的 Grok 经常在政治立场上“发癫”,怎么调教都无济于事;

ChatGPT 时不时像个过度热情的推销员,满嘴好话却离题万里;更别提那些一本正经胡说八道的“幻觉”时刻。

面对几十亿甚至上万亿参数的神经网络,人类研究者就像在对着一个漆黑的盒子算命。

我们造出了神,却搞不懂神的脑回路

但旧金山的一家初创公司 Guide Labs,刚刚决定把这块遮羞布给扯下来。

别搞神经科学了,搞工程

周一,Guide Labs 开源了一个 80 亿参数的大模型 Steerling-8B。

image

这玩意儿有什么稀奇?现在的模型动辄几千亿参数,80 亿听起来也就是个“小弟弟”。

但这个弟弟,是个“透明人”。

Steerling-8B 产出的每一个词,你都能顺着网线摸回去,找到它在训练数据里的“老家”。

它引用的事实依据从哪来?

它理解的幽默感是跟谁学的?

甚至它对性别的刻板印象源自哪段语料?

一切有迹可循。

Guide Labs 的 CEO Julius Adebayo 打了个特别形象的比方:

以前人们搞模型解释性,就像是在做“神经科学”——把模型当成一个已经长成的大脑,拿着手术刀去切片、去扫描,试图搞懂哪块脑区管什么。

但这太费劲了,而且经常误诊。

Adebayo 的思路是:别搞神经科学了,搞工程。

与其在模型训练完后费劲巴力地去猜它为什么这么干,不如从娘胎里就把它设计成“老实人”。

他们在模型里插了一层概念层,把数据像整理档案一样分门别类地塞进去。这就好比以前是往房间里乱扔书,现在是要上架入库,还得贴标签。

关掉偏见的开关

这事儿听起来简单,做起来简直是地狱难度。

image

Adebayo 在 MIT 读博期间就发现了这个问题。他在 2018 年合著的一篇论文里无情地指出:现有的深度学习模型理解方法,根本就不靠谱。

这就引出了一个让人头秃的问题:

如果你想让模型不歧视女性,你得在一万亿种编码可能性里,把那十亿个相关的参数全找出来,还得保证不误伤友军

如果漏掉了一粒沙子,模型可能还是会突然冒出一句惊世骇俗的歧视言论。

现在的模型能不能改?能。但 Adebayo 说,那非常脆弱,稍不留神就把模型搞废了。

而 Steerling-8B 的逻辑是:既然我知道这些“坏心思”都在哪,那我就能精准地把它关掉

想屏蔽版权素材?行。

想控制暴力内容?行。

想让它审批贷款时只看财务记录不看种族?也行。

这不再是玄学,这是开关。

牺牲灵性换安全?这笔账怎么算

看到这儿,可能有人要泼冷水了。

大模型最迷人的地方不就是那种“涌现”能力吗?就是那种老师没教过,学生自己悟出来的惊喜。

你把模型管得这么死,像个只会背书的书呆子,它还能有创造力吗?

image

说实话,我也挺担心这点的。万一它变成了一个只会复读的机器,那这技术也没啥意思。

有意思的是,Guide Labs 声称他们并没有扼杀这种灵性。

Adebayo 说他们的团队追踪到了所谓的“被发现的概念”。比如模型自己悟出了量子计算,这可不是训练数据里硬塞给它的。这就像是一个被管教很严的孩子,依然学会了独立思考。

而且,这个“听话”的孩子成绩还不错。Guide Labs 称,Steerling-8B 能达到现有模型 90% 的能力,但用的训练数据却更少。

这倒是挺反直觉的。通常我们觉得,要想马儿跑,就得给草吃,还得让马儿撒欢儿跑。现在看来,把路修平整了,可能跑起来更省劲。

900万美金的赌注:AI不能是个黑箱

这不仅仅是个技术玩具,这背后是真金白银的生意。

Guide Labs 从 Y Combinator 毕业不久,去年 11 月刚从 Initialized Capital 那里拿到了 900 万美元的种子轮融资。

资本为什么买单?因为“看不懂”正在成为 AI 落地最大的拦路虎。

在金融这种强监管行业,你敢用一个可能因为申请人的名字像某种族就拒贷的模型吗?在科研领域,AlphaFold 能算出蛋白质怎么折,但如果科学家不知道它为什么这么折,这结论就总差点意思。

Adebayo 甚至有点激进地表示,现在的模型训练方式“超级原始”。

他认为,随着模型越来越聪明,甚至走向超级智能,人类绝不能容忍一个“神秘莫测”的东西在背后替自己做决策。

这就像是你要把方向盘交给一个蒙着眼睛还要飙车的司机。

Steerling-8B 只是个开始,Guide Labs 的下一步是搞个更大的模型,还要开放 API。

虽然现在说“黑盒时代终结”还为时尚早,但至少有人拿起了锤子,准备把这堵墙砸个洞出来。毕竟,在这个充满不确定性的时代,我们需要的不仅仅是更聪明的 AI,更是更诚实的 AI。

你说呢?

——要我说,如果真的是超人智能,咱也别费那个劲了,猴子能理解人类吗?

参考链接:
https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/