老实讲,现在的大模型有时候就像个精神分裂的天才。
xAI 的 Grok 经常在政治立场上“发癫”,怎么调教都无济于事;
ChatGPT 时不时像个过度热情的推销员,满嘴好话却离题万里;更别提那些一本正经胡说八道的“幻觉”时刻。
面对几十亿甚至上万亿参数的神经网络,人类研究者就像在对着一个漆黑的盒子算命。
我们造出了神,却搞不懂神的脑回路。
但旧金山的一家初创公司 Guide Labs,刚刚决定把这块遮羞布给扯下来。
别搞神经科学了,搞工程
周一,Guide Labs 开源了一个 80 亿参数的大模型 Steerling-8B。
这玩意儿有什么稀奇?现在的模型动辄几千亿参数,80 亿听起来也就是个“小弟弟”。
但这个弟弟,是个“透明人”。
Steerling-8B 产出的每一个词,你都能顺着网线摸回去,找到它在训练数据里的“老家”。
它引用的事实依据从哪来?
它理解的幽默感是跟谁学的?
甚至它对性别的刻板印象源自哪段语料?
一切有迹可循。
Guide Labs 的 CEO Julius Adebayo 打了个特别形象的比方:
以前人们搞模型解释性,就像是在做“神经科学”——把模型当成一个已经长成的大脑,拿着手术刀去切片、去扫描,试图搞懂哪块脑区管什么。
但这太费劲了,而且经常误诊。
Adebayo 的思路是:别搞神经科学了,搞工程。
与其在模型训练完后费劲巴力地去猜它为什么这么干,不如从娘胎里就把它设计成“老实人”。
他们在模型里插了一层概念层,把数据像整理档案一样分门别类地塞进去。这就好比以前是往房间里乱扔书,现在是要上架入库,还得贴标签。
关掉偏见的开关
这事儿听起来简单,做起来简直是地狱难度。
Adebayo 在 MIT 读博期间就发现了这个问题。他在 2018 年合著的一篇论文里无情地指出:现有的深度学习模型理解方法,根本就不靠谱。
这就引出了一个让人头秃的问题:
如果你想让模型不歧视女性,你得在一万亿种编码可能性里,把那十亿个相关的参数全找出来,还得保证不误伤友军。
如果漏掉了一粒沙子,模型可能还是会突然冒出一句惊世骇俗的歧视言论。
现在的模型能不能改?能。但 Adebayo 说,那非常脆弱,稍不留神就把模型搞废了。
而 Steerling-8B 的逻辑是:既然我知道这些“坏心思”都在哪,那我就能精准地把它关掉。
想屏蔽版权素材?行。
想控制暴力内容?行。
想让它审批贷款时只看财务记录不看种族?也行。
这不再是玄学,这是开关。
牺牲灵性换安全?这笔账怎么算
看到这儿,可能有人要泼冷水了。
大模型最迷人的地方不就是那种“涌现”能力吗?就是那种老师没教过,学生自己悟出来的惊喜。
你把模型管得这么死,像个只会背书的书呆子,它还能有创造力吗?
说实话,我也挺担心这点的。万一它变成了一个只会复读的机器,那这技术也没啥意思。
有意思的是,Guide Labs 声称他们并没有扼杀这种灵性。
Adebayo 说他们的团队追踪到了所谓的“被发现的概念”。比如模型自己悟出了量子计算,这可不是训练数据里硬塞给它的。这就像是一个被管教很严的孩子,依然学会了独立思考。
而且,这个“听话”的孩子成绩还不错。Guide Labs 称,Steerling-8B 能达到现有模型 90% 的能力,但用的训练数据却更少。
这倒是挺反直觉的。通常我们觉得,要想马儿跑,就得给草吃,还得让马儿撒欢儿跑。现在看来,把路修平整了,可能跑起来更省劲。
900万美金的赌注:AI不能是个黑箱
这不仅仅是个技术玩具,这背后是真金白银的生意。
Guide Labs 从 Y Combinator 毕业不久,去年 11 月刚从 Initialized Capital 那里拿到了 900 万美元的种子轮融资。
资本为什么买单?因为“看不懂”正在成为 AI 落地最大的拦路虎。
在金融这种强监管行业,你敢用一个可能因为申请人的名字像某种族就拒贷的模型吗?在科研领域,AlphaFold 能算出蛋白质怎么折,但如果科学家不知道它为什么这么折,这结论就总差点意思。
Adebayo 甚至有点激进地表示,现在的模型训练方式“超级原始”。
他认为,随着模型越来越聪明,甚至走向超级智能,人类绝不能容忍一个“神秘莫测”的东西在背后替自己做决策。
这就像是你要把方向盘交给一个蒙着眼睛还要飙车的司机。
Steerling-8B 只是个开始,Guide Labs 的下一步是搞个更大的模型,还要开放 API。
虽然现在说“黑盒时代终结”还为时尚早,但至少有人拿起了锤子,准备把这堵墙砸个洞出来。毕竟,在这个充满不确定性的时代,我们需要的不仅仅是更聪明的 AI,更是更诚实的 AI。
你说呢?
——要我说,如果真的是超人智能,咱也别费那个劲了,猴子能理解人类吗?
参考链接:
https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/