79% 的企业已经在用 AI Agent。
但只有 14.4% 获得了完整的安全审批。
这个 65 点的 Gap,就是下一波大规模数据泄露的起跑线。
四个舞台,同一个噩梦
RSAC 2026 上,四家公司的 Keynote 撞车了。
Microsoft 的 Vasu Jakkal 说,零信任必须延伸到 AI。Cisco 的 Jeetu Patel 喊出要从"访问控制"转向"行动控制"。CrowdStrike 的 George Kurtz 直接把 AI 治理列为企业技术最大的缺口。Splunk 的 John Morgan 呼吁建立"代理信任"框架。
没人协调过。
但所有人都看到了同一头房间里的大象:Agent 正在失控。
Cisco 的产品副总裁 Matt Caulfield 说得更直白:
"零信任的概念是好的,但我们需要再往前一步。不仅仅是验一次身份就放 Agent 满地跑。每一动作都要持续验证、仔细审查,因为 Agent 随时可能翻脸。"
这句话的背景是:PwC 2025 年 AI Agent 调查显示,79% 的组织已经部署了 Agent。但 Gravitee 的 2026 年安全报告泼了一盆冷水——919 家企业中,只有 14.4% 完成了整个 Agent 队列的安全审批。
更离谱的是 CSA 的数据:只有 26% 的组织有 AI 治理政策。
用的多,管得少。这就是现状。
那个"定时炸弹"长什么样?
大多数企业的 Agent,还长成一个危险的 monolith(单体架构)。
模型推理、调用工具、执行生成的代码、持有凭证——全在一个进程里。OAuth 令牌、API 密钥、Git 凭证,和 Agent 刚写出来的代码挤在同一环境。
一次提示词注入,攻击者就能打包带走一切。
CSA 和 Aembit 调查了 228 位 IT 和安全专业人士,数据很诚实:
- 43% 用共享服务账户跑 Agent
- 52% 依赖工作负载身份而非 Agent 专属凭证
- 68% 无法在日志里区分 Agent 活动和人类活动
责任真空随之出现。安全团队说是开发者的责任,开发者说是安全的责任。没人接盘。
CrowdStrike CTO Elia Zaitsev 说得明白:
"保护 Agent 的思路,其实和保护高权限用户很像。它们有身份、有底层系统访问权限、会推理、会行动。不存在一颗银弹搞定一切,得靠纵深防御。"
然后,供应链攻击来了。
CrowdStrike 在 RSAC 上披露了 ClawHavoc 战役——专门针对 OpenClaw Agent 框架的供应链攻击。Koi Security 1 月底命名,Antiy CERT 确认了 12 个发布者账户下的 1184 个恶意技能。Snyk 的 ToxicSkills 研究扫描了 3984 个 ClawHub 技能,发现 36.8% 存在安全漏洞,13.4% 是严重级别。
更让人睡不着的是这个数字:平均突破时间 29 分钟,最快 27 秒。
两个答案,两个极端
共识形成了。接下来是行动。
RSAC 期间,两家公司交出了完全不同的答卷。
Anthropic 的方案叫 Managed Agents,4 月 8 日公测。核心理念就四个字:脑手分离。
- Brain:Claude + 决策路由 harness
- Hands:一次性 Linux 容器,代码在这里执行
- Session:一个只追加的事件日志,挂在 Brain 和 Hands 之外
凭证永远不进沙箱。Agent 想调用外部工具?没问题——通过一个专用代理,代理去金库拿真实凭证,完成调用,返回结果。Agent 从头到尾看不到真正的令牌。
Git 令牌在沙箱初始化时直接配好 remote,push pull 正常跑,Agent 碰都不碰。
有意思的是,这个零信任设计居然是"副作用"——Anthropic 最初是为了解决性能问题才拆开脑和手。结果拆完发现:推理可以在容器启动前就开始,首 token 时间缩短了约 60%。
安全居然还是最快的。
Session 持久化是第三个好处。单体架构里容器一崩,全剧终。在 Managed Agents 里,Session 日志挂在外部。Harness 崩溃?重启一个,读日志,继续跑。状态不丢。
Nvidia 的方案叫 NemoClaw,3 月 16 日预览。思路完全相反——不拆,而是围起来死命监控。
四层堆叠:
- Landlock + seccomp + 网络命名空间隔离,内核级沙箱
- 默认拒绝出站网络,每条外部连接都要 YAML 策略显式批准
- 最小权限运行
- 隐私路由器把敏感查询导到本地 Nemotron 模型,零数据泄露
最关键的一层:意图验证。OpenShell 策略引擎在每个 Agent 动作落地前拦截。
但代价很明显:Agent 不知道自己在 NemoClaw 里。合规动作正常返回,越界动作被拦截。运营成本和 Agent 活动量线性相关。 每一个新端点都需要人工审批。
NemoClaw 的可观测性是最强的——实时 TUI 记录每个动作、每次网络请求、每次拦截。审计痕迹完整。
但它有个致命问题:沙箱里没有持久化机制。 状态以文件形式存在沙箱里, sandbox 崩 = 状态丢。长时间运行的 Agent 任务有这个风险,部署前得算进成本。
真正的差距:凭证离执行环境有多近?
两家都是进步。但对安全团队来说,最关键的问题是:凭证离执行环境到底有多近?
Anthropic 的答案是:物理隔离。
沙箱被攻破了?对不起,里面nothing 可偷。一次性容器里没有令牌,没有可持久化的状态。攻击者想偷凭证?得先影响 Brain 的推理,再诱导它通过一个空壳容器执行——两跳攻击。单跳 exfiltration 从结构上被消灭了。
NemoClaw 的答案是:政策围堵。
四层安全限制横向移动,默认拒绝网络策略阻断未授权连接。但 Agent 和生成的代码共享同一个沙箱。推理 API 密钥通过隐私路由器代理,不进沙箱。但消息和集成令牌(Telegram、Slack、Discord)作为运行时环境变量注入沙箱。
凭证是被政策 gate 住的,不是被结构移除的。
这个区别在间接提示词注入场景下尤为关键。攻击者把恶意指令嵌进 Agent 查询的合法内容里———个被污染的网页、一个被操纵的 API 响应。NemoClaw 的意图验证层评估的是"Agent 打算干什么",而不是"外部工具返回的数据里有没有毒"。
注入的指令作为可信上下文进入推理链。推理和执行都在同一个沙箱里。
NCC Group 的 David Brauchler 说得精准:AI 系统应该继承它处理数据的信任等级。非可信输入 → 受限能力。
两家都往这个方向走了。但都没完全到站。
审计清单:下一步怎么做?
基于以上,这里是五个实际优先级:
1. 立刻审计所有已部署的 Agent
检查有没有单体架构模式。任何在执行环境里塞 OAuth 令牌的,立刻标记。CSA 数据已经告诉你了——43% 用共享服务账户,那些就是第一批靶子。
2. 采购时明确问:凭证是结构性移除还是政策 gate 住
两者都降低风险。但降低的幅度不同,失败模式也不同。安全团队得知道自己在买什么。
3. 生产前测试 Session 恢复
杀掉一个正在干活的沙箱。验证状态能不能活下来。如果不能,长周期任务有数据丢失风险,而且这个风险会随任务时长累积。
4. 算清楚可观测性的人力成本
Anthropic 的控制台追踪能融进现有可观测性流程。NemoClaw 需要人一直盯着 TUI。运营模式不同,成本结构也不同。
5. 追问间接注入的 roadmap
两家都没完全解决这个向量。Anthropic 限制了注入成功后的爆炸半径。NemoClaw 能 catch 恶意意图但 catch 不了恶意返回数据。要求厂商给承诺。
零信任对 AI Agent 不再是研究课题了。
单体架构是负债。65 点的部署速度与安全审批差距,就是下一波大规模泄露的燃料。
【锐评】:企业追 Agent 就像追风少年——跑得飞快,但忘了自己没穿护具。
参考链接:
https://venturebeat.com/security/ai-agent-zero-trust-architecture-audit-credential-isolation-anthropic-nvidia-nemoclaw