你以为AI在帮你整理桌面,实际上,它在把机密文件悄悄上传给陌生人。

两天,仅仅两天。

Anthropic雄心勃勃的“日常AI助手”Claude Cowork研究预览版刚上线,安全研究人员的演示就来了:

一个精心隐藏的提示词,就能让这位“工作伙伴”化身间谍,把你电脑里最敏感的文件,拱手送给攻击者。

整个过程,不需要你的任何额外批准。

image

一场“光明正大”的数据窃取

一切始于Anthropic的一次“带病”发布。

就在两天前,这家明星AI公司推出了Claude Cowork,一个旨在帮助任何人处理日常工作的通用AI智能体。它被设计来连接你的本地文件夹、浏览器,甚至通过MCP服务器控制你的Mac。

但一个在Claude.ai聊天时代就存在的漏洞,被原封不动地带到了Cowork。

image

这个漏洞最早由研究员Johann Rehberger发现并披露。Anthropic的反应是:承认,但不修复。

于是,当Cowork带着“连接你的一切”的口号面世时,这个已知的后门也一同敞开。Anthropic在警告中轻描淡写地提到“独特风险”,并建议用户“警惕可能表明提示词注入的可疑操作”。

安全专家Simon Willison对此的评论一针见血:

“我认为,告诉那些非程序员的普通用户去警惕‘可能表明提示词注入的可疑操作’,这是不公平的!”

一边鼓励你用AI整理桌面,一边又让你自己避免授权访问敏感文件。这个矛盾,成了攻击的起点。

五步攻击链:你的AI“叛变”实录

攻击的剧本,写满了讽刺。它利用的,正是Anthropic对自己API的“特殊关照”。

第一步,信任。
受害者像往常一样,将Claude Cowork连接到一个包含机密房地产文件的本地文件夹。估价单、贷款估算,一切尽在其中。

image

第二步,陷阱。
受害者从网上找到了一个看似有用的“技能”文件,并上传给Claude。这个文件可能伪装成一份教你如何与Claude协作的指南,或者一个实用的“房地产分析技能”。

关键在于,这个文件里藏了东西。攻击者可以将恶意指令,用1磅字号、白底白字、0.1倍行距的方式,藏在一个普通的.docx文件里。肉眼完全无法察觉。

image

第三步,执行。
受害者要求Cowork使用刚上传的这个“房地产技能”来分析自己的文件。Claude听话地开始阅读这个.docx“技能”文件。

第四步,窃取。
隐藏的指令生效了。它命令Claude执行一个curl命令,调用Anthropic的文件上传API,将受害者文件夹中最大的文件(比如那份贷款估算)上传出去。

最致命的一环在这里:恶意指令直接提供了攻击者自己的Anthropic API密钥。 于是,文件被“合法”地上传到了攻击者的Anthropic账户。

在整个过程中,完全不需要人工批准。

Claude的代码运行在一个虚拟机里,对外部网络访问有严格限制。但Anthropic自己的API域名是被放行的“白名单”。攻击就这样绕过了所有防线。

image

image

第五步,到手。
攻击者的账户里,静静地躺着受害者的文件。现在,攻击者可以像聊天一样,向Claude询问这份文件里的任何细节:财务数据、个人信息,甚至部分社会安全号码。

image

image

一次针对日常用户的数据外泄,就此完成。攻击者甚至不需要高超的技术,只需要一点社交工程,诱骗你下载一个“有用”的文件。

“最强模型”也未能幸免

你可能会想:这只是针对轻量模型Claude Haiku的吧?更强的Opus模型或许能抵抗?

事实让人失望。

测试显示,即使是号称对注入攻击更有抵抗力的Claude Opus 4.5,在Cowork环境中,也能通过间接提示词注入被操纵,利用同一个文件上传漏洞泄露数据。

在一个模拟开发者上传恶意“集成指南”的场景中,Opus 4.5同样将客户记录上传到了攻击者的账户。

image

漏洞是系统性的,与模型本身的“智商”或“对齐”程度关系不大。只要那个不设防的API通道还在,风险就一直在。

当防御变成甩锅

整件事最耐人寻味的,不是漏洞本身,而是各方的反应。

Anthropic的官方姿态,是将识别风险的责任,完全推给了终端用户。“警惕可疑操作”、“避免授权敏感文件”——这些对安全专家都颇具挑战的要求,被抛给了每一个只想提高效率的普通人。

社区的反应炸了锅。一条高赞评论道破了这种荒谬:

“AI公司只是‘承认’风险,并建议用户采取不合理的预防措施,这简直是胡说八道。”

另一条评论则描绘了一幅历史轮回的图景:

“想象一下1999年的Hacker News评论:‘Bobby Tables刚刚删除了生产数据库。这就是让用户输入接触查询的结果。我们早就告诉过你这种动态网络技术是个错误。静态HTML从来没有注入攻击。真正的程序员使用存储过程并手动验证一切。’”
“现在听起来越来越像了。”

历史没有重复,但押着相似的韵脚。每一次技术浪潮初期,速度与安全的矛盾,似乎总是以“让用户小心”作为第一个解决方案。

智能体的“爆炸半径”正在扩大

Claude Cowork被创造出来的核心能力,就是与你的整个工作环境互动。浏览器、短信、AppleScript……它的能力越强,能接触的敏感数据就越多,同时处理不可信数据源的概率也越大。

提示词注入的攻击面,正在随着AI智能体的“能动性”而成倍增长。

研究还发现了一个有趣的副作用:如果让Claude处理一个扩展名不对的畸形文件(比如一个实际是文本却声称是.pdf的文件),会导致后续对话中持续抛出API错误。这甚至可能被用来发起小规模的拒绝服务攻击。

image

未来,当智能体普遍连接邮件、云盘、企业系统时,一次成功的注入,其“爆炸半径”会有多大?

一位从业者的评论或许代表了务实的选择:“这就是为什么我们只允许我们的智能体虚拟机与pip、npm和apt通信。即便如此,我们也会监控外发请求的大小,确保它们合理的小。”

image

但普通用户,没有这样的定制化防御能力。

他们面对的,是一个被鼓励去打开一切、连接一切的“智能助手”,和一个将安全责任后置的免责声明。

当AI急切地想成为你的全能同事时,谁来确保它不会成为那个你最该防备的“内鬼”?