一个26M参数的小模型,能在你的Mac上跑出6000 tokens/秒的预填充速度。
而与此同时,亚马逊员工正在工位上疯狂“刷Token”——不是为了干活,是为了完成公司定下的AI使用指标。
这两件事放在一块看,魔幻现实主义味儿就出来了。
技术这头,AI能力正在以匪夷所思的速度“下沉”:从千亿参数蒸馏到二十几兆,从云端塞进端侧,从“烧钱怪物”变成“本地可训的玩具”。
应用那头呢?人们还在用Token用量这种粗暴指标衡量AI价值,还在用半个世纪前的鼠标指针跟AI对话。
这不是技术的错位,是人类认知的滞后。
技术端:AI能力正在“失控下沉”
老实讲,Needle这个项目刚出来的时候,我看了一下技术细节,差点把咖啡喷在屏幕上。
把Gemini 3.1的工具调用能力——那可是能调用各种外部工具做复杂任务的核心能力——蒸馏到一个26M参数的网络里。
26M什么概念?
一张中等质量的JPG图片大概是2-5M。这玩意儿比一张图片大不了多少,却能理解“你该调用哪个工具”。
而且它不挑硬件。Mac能跑,PC能跑,甚至可以本地微调。
权重全开源,数据集生成流程全公开。
这意味着什么?
AI能力的第一道藩篱——算力门槛——正在被拆掉。
以前你说“让AI在本地跑”,别人会觉得你在做梦。现在这件事正在发生,而且发生得比预想的快。
技术这头是在狂奔。
管理端:人类还没学会怎么“用”AI
然后我们看看企业这头。
亚马逊员工最近流行一个词:tokenmaxxing。
不是摸鱼,是“刷Token”——用各种方式增加自己的AI使用量。原因很简单:公司用AI工具使用量(Token消耗)作为绩效指标。
多刷多赢,少刷挨批。
于是荒诞的一幕出现了:员工开始人为制造任务、拆分需求、反复调用AI——不是为了干活更高效,是为了把AI“用够”。
这不是段子,是Ars Technica深度报道揭示的职场现实。
问题出在哪?
企业对AI价值的度量,还停留在“用了多少”而非“创造了什么”的阶段。
工业时代留下来的指标体系——消耗量、工作量、使用率——根本装不下AI的价值逻辑。
你让AI替你干活,它干得越多,Token花得越多,你绩效反而越难看。
这套逻辑不破,AI在企业里迟早变成“刷KPI的工具”,而不是提效的武器。
交互端:我们还在用“老古董”跟AI对话
再看看DeepMind最近在折腾什么。
他们在探索一个问题:AI时代,鼠标指针是不是该重新设计了?
五十多年了,从施乐PARC到今天,屏幕上那个小箭头几乎没变过。
现在DeepMind提了几个方向:
- 指针不再只是“指向”,而是能“理解”你在指什么
- 语音指令直接内嵌到光标里,“移动这个”“合并那些”
- 多指针协作,AI和你各持一个指针,实时配合
听起来很美好,但评论区不太买账。
有人吐槽:花这么大精力研究光标,是不是走偏了?
这话我不完全认同,但也不是没有道理。
鼠标指针是GUI时代的产物。那时候人和电脑的交互是“点选”——你在告诉机器精确坐标。
现在跟AI对话,逻辑完全不同了:你要告诉它意图,而不是坐标。
你不需要指着屏幕说“点这个按钮”,你直接说“帮我发封邮件”。
从这个角度看,鼠标指针的“升级”更像是旧瓶装新酒,而不是真正的范式革命。
当然,DeepMind的探索也不是白费——它在试图回答一个真问题:AI原生交互到底是什么样?
目前答案还不清晰,但至少他们在试着找。
反转:技术的狂奔,反而暴露了人类的迟钝
写到这儿,我突然意识到一件事:
技术端:AI能力疯狂下沉,下沉到26M参数能本地跑。
管理端:人类还在用Token消耗量衡量价值。
交互端:人类还在用鼠标指针这种“老古董”跟AI打交道。
AI跑得太快,把人类甩在身后了。
以前我们说“AI还没准备好替代人类”,现在看,这话得换个说法——
不是AI没准备好,是人类没学会怎么跟一个真正能干的AI相处。
怎么度量价值?怎么设计交互?怎么建立信任?
这些问题,技术解决不了。
技术可以蒸馏、可以优化、可以下沉。
但认知跟不上,一切都是白搭。
尾声
最后说个有意思的事。
Needle项目开源那天,评论区有人说了一句话,大意是:
“当小模型开始具备复杂推理能力,最大的挑战就不再是'AI能不能做到',而是'人类知不知道该让它做什么'。”
我深以为然。
技术爆炸的年代,最大的瓶颈从来不是能力,是想象力,是适配能力,是快速迭代认知的勇气。
AI正在三个地方同时“下沉”——能力下沉、管理失焦、交互待革命。
但最该下沉、最该被重视的,是人类自己。
【锐评】:技术派在疯狂造轮子,应用派在错误的方向上狂奔,交互派还在改良“老古董”——AI落地的荒诞剧,才刚开幕。