封面图

一个26M参数的小模型,能在你的Mac上跑出6000 tokens/秒的预填充速度。

而与此同时,亚马逊员工正在工位上疯狂“刷Token”——不是为了干活,是为了完成公司定下的AI使用指标。

这两件事放在一块看,魔幻现实主义味儿就出来了。

技术这头,AI能力正在以匪夷所思的速度“下沉”:从千亿参数蒸馏到二十几兆,从云端塞进端侧,从“烧钱怪物”变成“本地可训的玩具”。

应用那头呢?人们还在用Token用量这种粗暴指标衡量AI价值,还在用半个世纪前的鼠标指针跟AI对话。

这不是技术的错位,是人类认知的滞后。


技术端:AI能力正在“失控下沉”

老实讲,Needle这个项目刚出来的时候,我看了一下技术细节,差点把咖啡喷在屏幕上。

把Gemini 3.1的工具调用能力——那可是能调用各种外部工具做复杂任务的核心能力——蒸馏到一个26M参数的网络里。

26M什么概念?

一张中等质量的JPG图片大概是2-5M。这玩意儿比一张图片大不了多少,却能理解“你该调用哪个工具”。

而且它不挑硬件。Mac能跑,PC能跑,甚至可以本地微调。

权重全开源,数据集生成流程全公开。

这意味着什么?

AI能力的第一道藩篱——算力门槛——正在被拆掉。

以前你说“让AI在本地跑”,别人会觉得你在做梦。现在这件事正在发生,而且发生得比预想的快。

技术这头是在狂奔。


管理端:人类还没学会怎么“用”AI

然后我们看看企业这头。

亚马逊员工最近流行一个词:tokenmaxxing

不是摸鱼,是“刷Token”——用各种方式增加自己的AI使用量。原因很简单:公司用AI工具使用量(Token消耗)作为绩效指标。

多刷多赢,少刷挨批。

于是荒诞的一幕出现了:员工开始人为制造任务、拆分需求、反复调用AI——不是为了干活更高效,是为了把AI“用够”。

这不是段子,是Ars Technica深度报道揭示的职场现实。

问题出在哪?

企业对AI价值的度量,还停留在“用了多少”而非“创造了什么”的阶段。

工业时代留下来的指标体系——消耗量、工作量、使用率——根本装不下AI的价值逻辑。

你让AI替你干活,它干得越多,Token花得越多,你绩效反而越难看。

这套逻辑不破,AI在企业里迟早变成“刷KPI的工具”,而不是提效的武器。


交互端:我们还在用“老古董”跟AI对话

再看看DeepMind最近在折腾什么。

他们在探索一个问题:AI时代,鼠标指针是不是该重新设计了?

五十多年了,从施乐PARC到今天,屏幕上那个小箭头几乎没变过。

现在DeepMind提了几个方向:

  • 指针不再只是“指向”,而是能“理解”你在指什么
  • 语音指令直接内嵌到光标里,“移动这个”“合并那些”
  • 多指针协作,AI和你各持一个指针,实时配合

听起来很美好,但评论区不太买账。

有人吐槽:花这么大精力研究光标,是不是走偏了?

这话我不完全认同,但也不是没有道理。

鼠标指针是GUI时代的产物。那时候人和电脑的交互是“点选”——你在告诉机器精确坐标。

现在跟AI对话,逻辑完全不同了:你要告诉它意图,而不是坐标。

你不需要指着屏幕说“点这个按钮”,你直接说“帮我发封邮件”。

从这个角度看,鼠标指针的“升级”更像是旧瓶装新酒,而不是真正的范式革命。

当然,DeepMind的探索也不是白费——它在试图回答一个真问题:AI原生交互到底是什么样?

目前答案还不清晰,但至少他们在试着找。


反转:技术的狂奔,反而暴露了人类的迟钝

写到这儿,我突然意识到一件事:

技术端:AI能力疯狂下沉,下沉到26M参数能本地跑。

管理端:人类还在用Token消耗量衡量价值。

交互端:人类还在用鼠标指针这种“老古董”跟AI打交道。

AI跑得太快,把人类甩在身后了。

以前我们说“AI还没准备好替代人类”,现在看,这话得换个说法——

不是AI没准备好,是人类没学会怎么跟一个真正能干的AI相处。

怎么度量价值?怎么设计交互?怎么建立信任?

这些问题,技术解决不了。

技术可以蒸馏、可以优化、可以下沉。

但认知跟不上,一切都是白搭。


尾声

最后说个有意思的事。

Needle项目开源那天,评论区有人说了一句话,大意是:

“当小模型开始具备复杂推理能力,最大的挑战就不再是'AI能不能做到',而是'人类知不知道该让它做什么'。”

我深以为然。

技术爆炸的年代,最大的瓶颈从来不是能力,是想象力,是适配能力,是快速迭代认知的勇气。

AI正在三个地方同时“下沉”——能力下沉、管理失焦、交互待革命。

但最该下沉、最该被重视的,是人类自己。


【锐评】:技术派在疯狂造轮子,应用派在错误的方向上狂奔,交互派还在改良“老古董”——AI落地的荒诞剧,才刚开幕。