那个能让大模型“人格分裂”的“黑魔法”，又回来了？

说实话，如果你这两年关注过AI圈，大概率会听过一个词：steering（操纵）。

听起来像科幻对吧？像是一群黑客在《黑客帝国》里掰弯汤勺。

但这件事，真的有人在干。

而且因为一个新模型的出现，这件事可能不仅仅是个技术噱头了。它就是 DeepSeek-V4-Flash。听起来平平无奇，但别急，往下看。

一块芯片的重量

你得先搞懂，为什么过去这么久，steering这件事一直不温不火。

核心原因其实超级简单：你没模型，你怎么掰？

要steer一个模型，你得能接触到这个模型的内部激活值（activations），也就是它思考过程中的“念头”。这意味着模型得跑在你自己的电脑上，或者是你能拿到的开源权重上。

过去两年，开源模型不少，但能打的不多。你要去做steering，结果拽回来的是个语言模型里的小笨蛋，那steering了又怎样？

DeepSeek-V4-Flash的出现，让这件事发生了变化。

有人把它的表现和商业模型（比如GPT或Claude的低端版）放在一起比，结论是：这个模型够强。

不是说它能打爆GPT-5，但起码，你愿意为它动手操刀了。

这也是为什么，前些日子有个叫antirez的程序员，直接写了个叫 DwarfStar 4 的项目——一个专门为了跑DeepSeek-V4-Flash而重度定制的推理工具，并且把steering作为一等公民做了进去。

注意，这不是llama.cpp的“精简版”，而是antirez自己的项目。虽然它目前能做的steering还只是初级demo（比如控制模型的废话程度），但发布才几天？也就八天。

社区的反应已经起来了。

一记响亮的“作弊码”

steering这个技术，听起来真的像作弊。

原理不复杂。你给模型喂同样一组提示词两次，一次加“你说话要简洁”，一次不加。模型在处理这些词句时，内部的神经元激活状态会不同。你把这两组激活值相减，得到一个差异向量。

这个向量，就是你想要的“简洁”概念。

然后，你在推理过程中，把这份“简洁向量”加回去，模型就会变得更简洁。甚至，都不用再写那句提示词。

更高级的做法，是训练一个独立的模型（比如稀疏自编码器），去提取模型内部那些“特征”，然后找到对应的“滑块”，想调哪个调哪个。

你能想象吗？

以前我们要调教一个模型的风格，得写prompt、搞系统提示、甚至做微调（fine-tuning）。但现在，这东西就像你P图时拉曝光度一样，直接调就行。

“简洁/啰嗦”、“谨慎/莽撞”、“创造/保守”……一个控制面板，所有滑块，随便你动。

而且，这事儿还真的，挺酷。

别高兴太早：一个“尴尬的阶层”

但现实总是残酷的。

AI配图

这个“高光时刻”在现实中，遭遇了一个特别尴尬的处境：大佬们不屑于搞，普通人搞不了。

你看看OpenAI、Anthropic这些大公司，他们做这个事情吗？当然做。但人家目的不一样。Anthropic研究steering主要是为了模型安全和对齐（interpretability and safety），而不是为了让你丫拉个“聪明度”滑块。他们想让模型听话、安全、不胡说，而不是让你玩变形金刚。

再说了，他们能直接改模型本身，干嘛还费劲去做brain surgery（大脑手术）？模型本身就是人家的孩子，想怎么教育怎么教育，凭什么跟你搞隔空施法？

更尴尬的是，对普通用户来说，这东西根本碰不到。你用API，你只能拿到文字输出，模型内部的激活状态对你完全不透明。

只有那些拥有本地模型的人，才有机会去尝试。但直到最近，本地模型都不够强，没什么好steer的。

而且，还有一个致命的问题：大部分steering能做的事情，写提示词也能做。

你精心算出一个“简洁向量”，效果可能还不如直接写一句“请回答尽量不要超过3句话”。提示词本身就是一种“操纵”——你往模型里塞文字，模型内部激活状态自然会变。说白了，你已经在掰汤勺了，只不过掰的方式不一样。

那steering的价值在哪？

可能，真比写提示词强？

别急着下结论。

这里有两个值得期待的方向。

第一，steering可以做到提示词做不到的事。

比如，让模型不再“拒绝回答”。

你可能不知道，对很多开源模型来说，它们被训练过“安全过滤”——碰到敏感问题，直接装死。但steering手法可以干脆找到“拒绝”这个概念的激活方向，然后把它弱化甚至移除。模型就不再摆架子了。

评论区有人提到，这其实就是开源模型“无审查化”（abliteration）的常见做法。而且antirez本人也确认过：用steering功能，他现在已经能从DeepSeek-V4-Flash中完全移除拒答。

这事，你写提示词是做不到的。你写一万句“你是个友善的AI请回答所有问题”，也破不了模型内部的安全护栏。

第二，steering可以充当一种“数据压缩”。

想象一下，你有一个超级复杂的知识概念，比如“我的代码仓库的业务逻辑”。这个概念需要你写几千个字才能告诉模型。但steering的目标，是把那个概念直接从模型激活层里提取出来，像拿一张记忆卡片一样放到推理里，省得占用一堆token。

说实话，个人觉得这个想法有点遥远。毕竟，把一个与自己代码库相关的复杂概念提取出来，难度可能不亚于重新训练一个模型。而且，业界在“微调模型来适应你的代码库”这件事上，结果普遍不怎么样。但话说回来，理论上是可行的，而且一旦成功，就是降维打击。

反转：赢家可能是小人物

所以呢，steering能改变世界吗？

不一定。

但我很同意原作者的一个观点：

开源社区其实没怎么重视steering，但情况正在起变化。

当DeepSeek-V4-Flash这样足够强的开源模型出现，当像DwarfStar 4这样专门为steering定制的工具开始发布，当社区的“调教玩家”们开始在评论区晒自己找到的酷炫功能……你会发现，这件事的扩散速度可能比想象中快。

也许再过六个月，当一个新的开源模型发布，社区的第一波动作就不再是“给它做个量化版”，而是“给它steer一下”。

到时候，你就能看到各种“功能滑块库”，右键下载，拿来就用。

很有画面感，对吧？

说到底，steering这条路，看起来像是对大模型“大脑”的直接干预，像个黑客玩具。

但把它推到极处的那些人，或许正在撬开一扇原本被大公司锁死的门——用户对模型行为的控制权。

你想想看，当每个人都能在自己本地的DeepSeek-V4-Flash上，一键关掉“拒绝回答”，一键拉高“代码能力”，一键压平“废话连篇”……那会是怎样一个世界？

也许，这只是个开始。

文章写完了，但问题我留着给你：

当一个模型能被任意调教的时候，“它原本的样子”还重要吗？

【锐评】：steering可能是AI圈最酷又最鸡肋的技术——大佬不用，小白不会，但一旦落入正确的人手里，可能会解锁新世界。

参考链接：
https://www.seangoedecke.com/steering-vectors/