当AI开始“下沉”，人类还没学会怎么接住它

封面图

一个26M参数的小模型，能在你的Mac上跑出6000 tokens/秒的预填充速度。

而与此同时，亚马逊员工正在工位上疯狂“刷Token”——不是为了干活，是为了完成公司定下的AI使用指标。

这两件事放在一块看，魔幻现实主义味儿就出来了。

技术这头，AI能力正在以匪夷所思的速度“下沉”：从千亿参数蒸馏到二十几兆，从云端塞进端侧，从“烧钱怪物”变成“本地可训的玩具”。

应用那头呢？人们还在用Token用量这种粗暴指标衡量AI价值，还在用半个世纪前的鼠标指针跟AI对话。

这不是技术的错位，是人类认知的滞后。

技术端：AI能力正在“失控下沉”

老实讲，Needle这个项目刚出来的时候，我看了一下技术细节，差点把咖啡喷在屏幕上。

把Gemini 3.1的工具调用能力——那可是能调用各种外部工具做复杂任务的核心能力——蒸馏到一个26M参数的网络里。

26M什么概念？

一张中等质量的JPG图片大概是2-5M。这玩意儿比一张图片大不了多少，却能理解“你该调用哪个工具”。

而且它不挑硬件。Mac能跑，PC能跑，甚至可以本地微调。

权重全开源，数据集生成流程全公开。

这意味着什么？

AI能力的第一道藩篱——算力门槛——正在被拆掉。

以前你说“让AI在本地跑”，别人会觉得你在做梦。现在这件事正在发生，而且发生得比预想的快。

技术这头是在狂奔。

管理端：人类还没学会怎么“用”AI

然后我们看看企业这头。

亚马逊员工最近流行一个词：tokenmaxxing。

不是摸鱼，是“刷Token”——用各种方式增加自己的AI使用量。原因很简单：公司用AI工具使用量（Token消耗）作为绩效指标。

多刷多赢，少刷挨批。

于是荒诞的一幕出现了：员工开始人为制造任务、拆分需求、反复调用AI——不是为了干活更高效，是为了把AI“用够”。

这不是段子，是Ars Technica深度报道揭示的职场现实。

问题出在哪？

企业对AI价值的度量，还停留在“用了多少”而非“创造了什么”的阶段。

工业时代留下来的指标体系——消耗量、工作量、使用率——根本装不下AI的价值逻辑。

你让AI替你干活，它干得越多，Token花得越多，你绩效反而越难看。

这套逻辑不破，AI在企业里迟早变成“刷KPI的工具”，而不是提效的武器。

交互端：我们还在用“老古董”跟AI对话

再看看DeepMind最近在折腾什么。

他们在探索一个问题：AI时代，鼠标指针是不是该重新设计了？

五十多年了，从施乐PARC到今天，屏幕上那个小箭头几乎没变过。

现在DeepMind提了几个方向：

指针不再只是“指向”，而是能“理解”你在指什么
语音指令直接内嵌到光标里，“移动这个”“合并那些”
多指针协作，AI和你各持一个指针，实时配合

听起来很美好，但评论区不太买账。

有人吐槽：花这么大精力研究光标，是不是走偏了？

这话我不完全认同，但也不是没有道理。

鼠标指针是GUI时代的产物。那时候人和电脑的交互是“点选”——你在告诉机器精确坐标。

现在跟AI对话，逻辑完全不同了：你要告诉它意图，而不是坐标。

你不需要指着屏幕说“点这个按钮”，你直接说“帮我发封邮件”。

从这个角度看，鼠标指针的“升级”更像是旧瓶装新酒，而不是真正的范式革命。

当然，DeepMind的探索也不是白费——它在试图回答一个真问题：AI原生交互到底是什么样？

目前答案还不清晰，但至少他们在试着找。

反转：技术的狂奔，反而暴露了人类的迟钝

写到这儿，我突然意识到一件事：

技术端：AI能力疯狂下沉，下沉到26M参数能本地跑。

管理端：人类还在用Token消耗量衡量价值。

交互端：人类还在用鼠标指针这种“老古董”跟AI打交道。

AI跑得太快，把人类甩在身后了。

以前我们说“AI还没准备好替代人类”，现在看，这话得换个说法——

不是AI没准备好，是人类没学会怎么跟一个真正能干的AI相处。

怎么度量价值？怎么设计交互？怎么建立信任？

这些问题，技术解决不了。

技术可以蒸馏、可以优化、可以下沉。

但认知跟不上，一切都是白搭。

尾声

最后说个有意思的事。

Needle项目开源那天，评论区有人说了一句话，大意是：

“当小模型开始具备复杂推理能力，最大的挑战就不再是'AI能不能做到'，而是'人类知不知道该让它做什么'。”

我深以为然。

技术爆炸的年代，最大的瓶颈从来不是能力，是想象力，是适配能力，是快速迭代认知的勇气。

AI正在三个地方同时“下沉”——能力下沉、管理失焦、交互待革命。

但最该下沉、最该被重视的，是人类自己。

【锐评】：技术派在疯狂造轮子，应用派在错误的方向上狂奔，交互派还在改良“老古董”——AI落地的荒诞剧，才刚开幕。