封面图

2026年的AI Agent赛道,呈现出一幅诡异的两极图景——

一边是 OpenAI Codex 可以让你躺在沙发上,用手机操控锁屏状态的 Mac 替你看代码;另一边是微软悄悄裁撤数千个 Claude Code 席位,逼着工程师改回 Copilot CLI。

听起来像是两种完全不同的故事?

但它们发生在同一个季度。

这背后藏着的,是一个正在被行业重新定义的真相:AI Agent 的瓶颈,从来都不在模型能力上。


能力狂飙:Agent 的「手」已经伸得很长了

先说好消息。

OpenAI 刚刚发布的 Codex 更新,让 AI Agent 第一次真正意义上「看见并操控」了一台锁屏状态的 Mac。用户不需要任何操作,Agent 可以在后台调动这台电脑完成复杂任务——打开浏览器、填表、写代码、截图分析。

这不是玩具演示。

这是实打实的跨设备控制能力,背后依赖 Screen Recording 和 Accessibility 两项系统级权限的配合。意味着 AI 已经接管了「人机交互层」的最后一道防线。

与此同时,Anthropic 的 Project Glasswing 项目也在闷声搞大事——用 Claude Mythos 在短短几周内挖出了 超过一万个高危漏洞。注意,不是几百个,是一万个。

行业安全格局正在被改写。

过去几十年,安全研究员的产出上限取决于「人」能多快发现漏洞。现在这个上限变成了:漏洞太多了,多到修不过来。

「Progress on software security used to be limited by how quickly we could find new vulnerabilities. Now it's limited by how quickly we can verify, disclose, and patch.」

Anthropic 自己在博客里写得很清楚——这场游戏的规则已经变了。

但问题来了:

能力边界在疯狂扩张,谁在给这辆跑车踩刹车?


微软率先交了底:烧钱太快,吃不消了

答案比你想的更现实。

The Verge 爆出的这条消息,我愿意称之为 2026 年 AI Agent 领域最诚实的新闻:

微软正在批量取消 Claude Code 许可。

数千名工程师用了六个月的 Claude Code,体验评价是「相当受欢迎」——然后微软决定在 6 月 30 日之前把他们全部迁移到 GitHub Copilot CLI。

官方说法是「战略聚焦」,但知情人士透露的另一个原因更直白:Token 消耗太快,已经影响到财报了。

说白了,这就是 Agent 的「无人值守陷阱」。

Claude Code 为什么受欢迎?因为它真的能帮工程师干活,而且不需要人盯着。但问题恰恰出在这里——当 Agent 可以 7×24 小时自动运行,一个开发团队的 Token 消耗量会直接跳涨几个量级。

更讽刺的是,微软自己的 Copilot CLI 其实功能不如 Claude Code,但它是本地命令行工具,不走云端 API,成本可控。

这里有个行业不愿意明说的秘密:

那些看起来「AGI 级别」的 Agent 体验,每一秒都在烧钱。Token 成本 × 并发数量 × 运行时间 = 真实的企业账单。当老板开始看财务报表的时候,「能力上限」和「财务可持续」之间,你会发现后者才是真正的硬约束。


RAG 已死,终端当立?工程架构的暗流涌动

如果说你只关心商业案例,那可能还没感觉到真正的大地震正在技术底层发生。

VB 刚刚发了一篇技术文章,标题相当直白:《你的 AI Agent 需要一个终端,而不仅仅是一个向量数据库》

这个观点,来自多所高校研究者的联合论文,核心是「直接语料交互」(Direct Corpus Interaction,DCI)技术。

他们在说一件很多开发者心知肚明但不愿承认的事:

现有 RAG 架构,正在成为 AI Agent 性能的真实瓶颈。

原理很简单:

  • 传统 RAG 把文档切片、向量化、存入向量数据库
  • 用户提问时,用语义相似度检索返回 top-k 结果
  • 但 Agent 真正需要的,往往是精确的字符串、版本号、错误码、文件路径

这些「长尾细节」,恰好是语义相似度最容易失手的地方。

更致命的是:一旦检索被压缩成单一步骤,任何被相似度搜索过滤掉的关键证据——哪怕 Agent 后续推理能力再强——都再也找不回来了。

DCI 的方案是让 Agent 绕过嵌入模型,直接用命令行工具搜索原始语料。听起来很复古,但逻辑很清晰:

与其让语义检索「猜」你可能需要什么,不如让 Agent 自己「查」它真正需要什么。

这是对过去两年 RAG 热潮的一次集体反思。


本地优先,隐私觉醒:一个被忽视的暗线

好,现在把视线拉回工程实践层。

聊了这么多「云端 Agent」的成本和架构问题,有一条暗线一直躲在聚光灯外:隐私与数据安全

当企业把 Agent 接入内部系统,让 AI 直接操控数据库、访问代码仓库、操作生产环境——数据流向就变成了一个必须回答的问题。

而 KanBots 这个开源看板工具,给出了一个有趣的回答:

它的设计哲学是零数据外传——每个 Agent 运行在独立的 Git Worktree 隔离环境里,所有操作都在本地完成,不走任何云端 API。

有意思的是,它支持的恰好是 Claude Code 和 Codex——这两家最主流的云端 Agent。KanBots 做的是一件事:把它们本地化。

这透露出的信号是:2026 年,隐私合规正在反向塑造 Agent 的部署架构。

不是因为监管变严格了——而是因为企业的 CTO 们开始算账了:让核心代码天天流经第三方 API,这件事在财务和法务层面越来越难解释。


Agent 2.0 的真正门槛:不是能力,是工程

回到最初的命题:AI Agent 的瓶颈在哪里?

2023-2024 年,行业普遍认为是模型能力——GPT-4 能做到吗?Claude 能理解吗?

2025 年,部分人意识到是上下文窗口——喂不进去足够的信息。

但 2026 年,真正的瓶颈已经浮出水面:

Token 成本的人效比,是 RAG 架构的检索盲区,是 并发协作时的状态隔离,是 数据隐私的合规风险

这些全是工程问题,不是算法问题。

所以你看到微软在降本增效,OpenAI 在扩能力边界,学术界在重写检索范式,开源社区在做本地化封装——

他们其实在做同一件事:在模型能力爆炸之后,找到一条「可工程化落地」的路径。


写在最后

AI Agent 这条赛道,从来不缺激动人心的 Demo。

但 Demo 和 Production 之间,隔着一道由 Token 成本、系统权限、数据流向、并发稳定性共同筑成的「工程墙」。

2026 年,行业第一次集体意识到这堵墙的存在。

接下来,谁能把「能力」翻译成「工程」,谁就能拿到下一阶段的船票。


【锐评】: 说实话,微软这波停 Claude Code 转 Copilot CLI 的操作,比 OpenAI 发一百个 Demo 都有信息量——毕竟财报不会骗人。


参考来源:

  • OpenAI Codex 跨设备控制更新:https://x.com/OpenAI/status/2057617844800794878
  • Anthropic Project Glasswing 初期报告:https://www.anthropic.com/research/glasswing-initial-update
  • The Verge - Microsoft 取消 Claude Code 许可:https://www.theverge.com/tech/930447/microsoft-claude-code-discontinued-notepad
  • VentureBeat - AI Agent 需要终端而非向量数据库:https://venturebeat.com/orchestration/your-ai-agents-need-a-terminal-not-just-a-vector-database
  • KanBots 开源看板工具:https://www.kanbots.dev/