AI正在学会"先干后问"——以及为什么这需要底层革命

封面图

两条新闻，同一天，表面上八竿子打不着。

一条讲的是Anthropic怎么"调教"Claude的系统提示词更新；另一条讲的是程序员在Apple Silicon上折腾出WebAssembly零拷贝GPU推理的技术方案。

但如果你细看，这两条新闻其实在说同一件事——AI系统正在经历一场从底层到顶层的效率革命。

而这场革命的关键词是：消除中间层。

被AI"面试"有多烦？

你有没有过这种体验：让AI帮你做点事，它反而开始问你问题。

"帮我写一封邮件给客户。"

"好的，请问收件人是谁？"

"就是那个上次合作的王总啊。"

"请问是王总的全名是？邮箱是？"

"？？？"

这种情况太常见了。过去的AI产品有一种天然的"谨慎"倾向：理解用户→确认理解→逐步推进。每一步都要等用户确认，仿佛一个步步为营的审计流程。

Claude Opus 4.7的系统提示词更新，试图终结这种局面。

Simon Willison 详细拆解了这次更新，发现了一个关键变化：

"When a request leaves minor details unspecified, the person typically wants Claude to make a reasonable attempt now, not to be interviewed first. Claude only asks upfront when the request is genuinely unanswerable without the missing information."

翻译成人话就是：不要停下来问，给个答案先。

这是一个巨大的范式转变。

过去的AI产品哲学是"问清楚再做"，现在的方向是"先做，遇到真正解决不了的再问"。这不是语义上的小差别，这是产品交互逻辑的根本性重新设计。

有意思的是，新的系统提示词还特别强调了工具使用优先级：

"When a tool is available that could resolve the ambiguity or supply the missing information — searching, looking up the person's location, checking a calendar, discovering available capabilities — Claude calls the tool to try and solve the ambiguity before asking the person."

简单说：能用工具查的，就别让用户自己查。

这是让AI更像一个能干的员工，而不是一个需要手把手教的实习生。

但"主动出击"需要代价

问题来了：AI要主动行动，就意味着更多的计算和交互。

Claude Opus 4.7新增了Chrome代理、Excel代理、PowerPoint代理。模型要操作浏览器、操作Office文档，这些能力听起来很美好——但如果每次工具调用都引入额外延迟，用户体验就会崩塌。

这就引出第二条新闻。

Agam Brahma 在Apple Silicon上实现了WebAssembly线性内存到GPU的零拷贝推理。听起来很硬核，但原理不复杂：

传统情况下，数据从WebAssembly沙箱到GPU需要经过好几层拷贝：沙箱内存→主机内存→GPU内存。每一次拷贝都意味着延迟和功耗。

但在Apple Silicon上，CPU和GPU共享同一块物理内存——苹果叫它Unified Memory Architecture。没有总线，没有拷贝，数据指针在沙箱环境和GPU之间直接传递。

Agam Brahma验证了这个链路的可行性：Wasm guest在内存里填一个矩阵，GPU直接读同一块物理内存，计算完毕，结果直接写回，guest通过同一个指针读取——零拷贝。

这听起来像是过度工程，但实际上是AI推理栈演进的必然方向。

两件事，一个逻辑

表面上，Claude的系统提示词更新是"交互设计"问题，零拷贝是"底层优化"问题。

但它们共享同一个底层逻辑：

消除中间层。

Claude新指令的核心是"不要问，直接做"——减少AI和用户之间的交互轮次，让AI自己解决问题。

零拷贝的核心是"不要拷贝，直接用"——减少数据在不同内存空间之间的搬运，让计算更高效。

一个是交互层的摩擦消除，一个是数据层的摩擦消除。

它们共同指向一个趋势：AI正在从"被动响应"向"主动执行"转变，而这个转变需要整个系统栈的效率革命作为支撑。

竞争的新维度

过去我们衡量AI，主要看模型能力：推理质量、创意生成、指令遵循。

但现在竞争正在向两个方向延伸：

上层：用户体验和任务完成效率。模型能力再强，如果每次都要用户反复确认、反复输入，效率就被浪费了。

下层：推理基础设施的效率。模型判断再准确，如果推理链路中数据反复拷贝、延迟堆积，实际体验也会打折扣。

Claude Opus 4.7的系统提示词更新，展示了上层设计的演进方向：让AI更像一个能干的助手，而不是一个需要照顾的新手。

Apple Silicon的零拷贝技术，展示了底层架构的演进方向：让数据流尽可能直连，消除不必要的中间层。

这两条新闻看似毫无关联，但组合在一起，我们能看到AI系统正在被重新设计——从底层的硬件架构，到顶层的交互逻辑，都在为"更主动、更高效"的AI形态铺路。

Anthropic是唯一公开系统提示词的主流AI实验室。这本身就很有意思——当其他公司把系统提示词当作核心机密严防死守的时候，Anthropic选择公开，而且Simon Willison这样的独立研究者还能把它拆解得明明白白。

这种开放性给了开发者一个窗口：不仅能看到"AI做了什么"，还能看到"AI被设计成什么样"。

而苹果的风格则完全相反。它没有在发布会上大谈"我们的统一内存架构如何赋能AI推理"，但默默设计的硬件架构确实创造了这个可能性。

两种风格，两种路径，但最终汇聚到同一个方向：让AI更快、更主动、更少废话。

这大概就是接下来几年AI竞争的核心维度了。

【锐评】：一条新闻教你怎么设计Prompt，一条新闻教你怎么优化内存拷贝——放在一起看，你会发现AI行业真正在卷的不是模型本身，而是整个系统的"流畅度"。模型是皮，效率是骨。