说实话,如果你这两年关注过AI圈,大概率会听过一个词:steering(操纵)。
听起来像科幻对吧?像是一群黑客在《黑客帝国》里掰弯汤勺。
但这件事,真的有人在干。
而且因为一个新模型的出现,这件事可能不仅仅是个技术噱头了。它就是 DeepSeek-V4-Flash。听起来平平无奇,但别急,往下看。
一块芯片的重量
你得先搞懂,为什么过去这么久,steering这件事一直不温不火。
核心原因其实超级简单:你没模型,你怎么掰?
要steer一个模型,你得能接触到这个模型的内部激活值(activations),也就是它思考过程中的“念头”。这意味着模型得跑在你自己的电脑上,或者是你能拿到的开源权重上。
过去两年,开源模型不少,但能打的不多。你要去做steering,结果拽回来的是个语言模型里的小笨蛋,那steering了又怎样?
DeepSeek-V4-Flash的出现,让这件事发生了变化。
有人把它的表现和商业模型(比如GPT或Claude的低端版)放在一起比,结论是:这个模型够强。
不是说它能打爆GPT-5,但起码,你愿意为它动手操刀了。
这也是为什么,前些日子有个叫antirez的程序员,直接写了个叫 DwarfStar 4 的项目——一个专门为了跑DeepSeek-V4-Flash而重度定制的推理工具,并且把steering作为一等公民做了进去。
注意,这不是llama.cpp的“精简版”,而是antirez自己的项目。虽然它目前能做的steering还只是初级demo(比如控制模型的废话程度),但发布才几天?也就八天。
社区的反应已经起来了。
一记响亮的“作弊码”
steering这个技术,听起来真的像作弊。
原理不复杂。你给模型喂同样一组提示词两次,一次加“你说话要简洁”,一次不加。模型在处理这些词句时,内部的神经元激活状态会不同。你把这两组激活值相减,得到一个差异向量。
这个向量,就是你想要的“简洁”概念。
然后,你在推理过程中,把这份“简洁向量”加回去,模型就会变得更简洁。甚至,都不用再写那句提示词。
更高级的做法,是训练一个独立的模型(比如稀疏自编码器),去提取模型内部那些“特征”,然后找到对应的“滑块”,想调哪个调哪个。
你能想象吗?
以前我们要调教一个模型的风格,得写prompt、搞系统提示、甚至做微调(fine-tuning)。但现在,这东西就像你P图时拉曝光度一样,直接调就行。
“简洁/啰嗦”、“谨慎/莽撞”、“创造/保守”……一个控制面板,所有滑块,随便你动。
而且,这事儿还真的,挺酷。
别高兴太早:一个“尴尬的阶层”
但现实总是残酷的。
这个“高光时刻”在现实中,遭遇了一个特别尴尬的处境:大佬们不屑于搞,普通人搞不了。
你看看OpenAI、Anthropic这些大公司,他们做这个事情吗?当然做。但人家目的不一样。Anthropic研究steering主要是为了模型安全和对齐(interpretability and safety),而不是为了让你丫拉个“聪明度”滑块。他们想让模型听话、安全、不胡说,而不是让你玩变形金刚。
再说了,他们能直接改模型本身,干嘛还费劲去做brain surgery(大脑手术)?模型本身就是人家的孩子,想怎么教育怎么教育,凭什么跟你搞隔空施法?
更尴尬的是,对普通用户来说,这东西根本碰不到。你用API,你只能拿到文字输出,模型内部的激活状态对你完全不透明。
只有那些拥有本地模型的人,才有机会去尝试。但直到最近,本地模型都不够强,没什么好steer的。
而且,还有一个致命的问题:大部分steering能做的事情,写提示词也能做。
你精心算出一个“简洁向量”,效果可能还不如直接写一句“请回答尽量不要超过3句话”。提示词本身就是一种“操纵”——你往模型里塞文字,模型内部激活状态自然会变。说白了,你已经在掰汤勺了,只不过掰的方式不一样。
那steering的价值在哪?
可能,真比写提示词强?
别急着下结论。
这里有两个值得期待的方向。
第一,steering可以做到提示词做不到的事。
比如,让模型不再“拒绝回答”。
你可能不知道,对很多开源模型来说,它们被训练过“安全过滤”——碰到敏感问题,直接装死。但steering手法可以干脆找到“拒绝”这个概念的激活方向,然后把它弱化甚至移除。模型就不再摆架子了。
评论区有人提到,这其实就是开源模型“无审查化”(abliteration)的常见做法。而且antirez本人也确认过:用steering功能,他现在已经能从DeepSeek-V4-Flash中完全移除拒答。
这事,你写提示词是做不到的。你写一万句“你是个友善的AI请回答所有问题”,也破不了模型内部的安全护栏。
第二,steering可以充当一种“数据压缩”。
想象一下,你有一个超级复杂的知识概念,比如“我的代码仓库的业务逻辑”。这个概念需要你写几千个字才能告诉模型。但steering的目标,是把那个概念直接从模型激活层里提取出来,像拿一张记忆卡片一样放到推理里,省得占用一堆token。
说实话,个人觉得这个想法有点遥远。毕竟,把一个与自己代码库相关的复杂概念提取出来,难度可能不亚于重新训练一个模型。而且,业界在“微调模型来适应你的代码库”这件事上,结果普遍不怎么样。但话说回来,理论上是可行的,而且一旦成功,就是降维打击。
反转:赢家可能是小人物
所以呢,steering能改变世界吗?
不一定。
但我很同意原作者的一个观点:
开源社区其实没怎么重视steering,但情况正在起变化。
当DeepSeek-V4-Flash这样足够强的开源模型出现,当像DwarfStar 4这样专门为steering定制的工具开始发布,当社区的“调教玩家”们开始在评论区晒自己找到的酷炫功能……你会发现,这件事的扩散速度可能比想象中快。
也许再过六个月,当一个新的开源模型发布,社区的第一波动作就不再是“给它做个量化版”,而是“给它steer一下”。
到时候,你就能看到各种“功能滑块库”,右键下载,拿来就用。
很有画面感,对吧?
说到底,steering这条路,看起来像是对大模型“大脑”的直接干预,像个黑客玩具。
但把它推到极处的那些人,或许正在撬开一扇原本被大公司锁死的门——用户对模型行为的控制权。
你想想看,当每个人都能在自己本地的DeepSeek-V4-Flash上,一键关掉“拒绝回答”,一键拉高“代码能力”,一键压平“废话连篇”……那会是怎样一个世界?
也许,这只是个开始。
文章写完了,但问题我留着给你:
当一个模型能被任意调教的时候,“它原本的样子”还重要吗?
【锐评】:steering可能是AI圈最酷又最鸡肋的技术——大佬不用,小白不会,但一旦落入正确的人手里,可能会解锁新世界。
参考链接:
https://www.seangoedecke.com/steering-vectors/