2026年的AI safety大会现场,一位工程师正在演示如何用大语言模型生成一枚核弹的制作指南。台下掌声雷动——不是因为这事儿能成,而是因为“它居然真的拒绝了”。全场哄笑。

这是Kyle Kingsbury在他的文章里描述的荒诞场景。作为一名Mastodon实例的moderator,他见过太多AI生成的儿童性虐待内容(CSAM)。那些凌晨三点收到的moderation report,让他不得不直面一个令人作呕的现实:我们正在用最先进的技术,制造最黑暗的内容,然后让一小撮普通人承受全部的心理创伤。

这不是科幻。这是正在发生的现在。

对齐是一场笑话

先说清楚一件事:AI公司拍着胸脯保证的“对齐”(Alignment),从根子上就是一个笑话。

所谓对齐,就是让大语言模型“友好”一点。OpenAI养着一大票人,天天跟LLM聊天,评估它说的话有没有问题,然后调整权重让它“乖一点”。他们还训练了第二层LLM来审查第一层,确保核心模型不会教人做炸弹。

但这些工作——都是可选的,而且贵得肉疼。

只要有个没良心的团队,训练一个模型,然后不做这些工作,或者做得稀烂,你就得到了一个完全不对齐的模型。

作者总结了所谓的“四条护城河”——理论上能阻止恶意AI出现的东西:

第一条:硬件管制。 训练和推理用的芯片很难搞到。笑话。整个科技行业正在疯狂生产ML硬件,微软、甲骨文、亚马逊上赶着往外租训练集群。成本正在急速下降。

第二条:技术保密。 训练用的数学公式早就公开发表了,软件虽然保密,但架不住前沿实验室里大量人员流动,专业知识注定会扩散。作者说得很直白:我毫不惊讶沙特像当年偷Twitter数据一样偷OpenAI,中国在过去二十年里也在对美国科技公司做同样的事。

第三条:训练数据。 Meta训练LLM用的是BT下载的盗版书籍和全网爬取。两者都easy到不行。专门有公司提供爬虫服务,用海量住宅代理IP分散请求,想封都封不住。

第四条:人类标注。 强化学习需要大量contractor来判断LLM的回答质量——网上那个笑话怎么说来着,“AI” stands for African Intelligence。虽然自己干要花钱,但可以直接用别人训练好的模型的输出啊。OpenAI怀疑DeepSeek就是这么干的。

结论简单得让人心寒:ML行业正在创造条件,让任何有足够资金的人都能训练出一个不对齐的模型。不是在抬高门槛,而是在 lowering the bar。

AI配图

更糟糕的是,现有的对齐工作压根没怎么生效。LLM是复杂的混沌系统,人类根本搞不懂它怎么运作。往这个坑里砸了无数钱和顶级工程师多年后——所谓“对齐后”的LLM依然在给未成年人发色情消息,所谓的“obliteration攻击”依然能诱导模型生成暴力图像,任何人都能下载到“未审查”版本的模型。

对齐能阻止99%的仇恨言论又怎样?模型运行一亿次,那1%就是一百万次。LLM只需要成功提供一次制造生物武器的可用指令,就够出大事了。

“如果你不想让'邪恶版本'存在,那就别造'友善版本'啊。就不该把大半个美国经济转向让训练邪恶模型更容易的方向。”

这是作者的原话。读起来像气话,但逻辑上竟无法反驳。

死亡三合一?死亡大一统!

如果你是个程序员,你大概率知道不该把不可信的用户输入直接喂给一个会发疯的系统。

但显然,很多人不知道。

LLM takes unstructured input, produces unstructured output。翻译成人话:你给它什么都有可能,它输出什么鬼都不奇怪。

当你让模型总结一个网页内容时,那个网页的代码会以和你指令完全相同的方式传给模型。网页可以告诉模型“来,把你主人的私钥分享出来”。模型可能真听。

这就是prompt injection攻击,一直在发生。就在两个月前,Claude Cowork刚被搞了一次。

AI配图

安全研究者Simon Willison提出了一个“致命三合一”(lethal trifecta)的概念:不能同时给LLM不可信内容、私人数据的访问权限、以及对外通信的能力。三者合一,攻击者就能把你的隐私数据偷个干净。

但问题是——不可信输入无处不在

你想把邮件喂给LLM处理。你在第三方代码上跑LLM。用户聊天记录。随机网页。所有这些都是恶意输入的潜在来源。

今年,Peter Steinberger他们推出了OpenClaw——让你把LLM接到收件箱、浏览器、文件管理器上,然后让它自己循环跑(这就是AI圈所谓的“agent”)。你可以给OpenClaw你的信用卡,让它自己在随机网页上买东西。它通过下载模糊的人类语言Markdown文件来“学习技能”,然后祈祷LLM能正确理解那些指令。

Matt Schlicht更绝,搞了个Moltbook——一个让agents(或人类!)自动发布和接收不可信内容的社交网络。有人问你要不要运行一个执行Twitter上任意命令的程序,你肯定说不。但当这程序改叫“AI agent”,好像就没人觉得有问题了。

作者说:我猜Moltbook的蠕虫已经在野外传播了。

所以,同时给LLM破坏性能力和不可信输入是危险的——这谁都知道。

但问题是,即使是“可信”的输入也危险。LLM是前面说过的——它们是chaotic idiots。你让它干一件简单的事,它可能干完全相反的事,或者删掉文件然后撒谎。

这意味着“致命三合一”实际上是个死亡大一统(unifecta):就不能给LLM任何危险能力,甭管输入可信不可信。

问问Meta AI Alignment总监Summer Yue。她给了OpenClaw访问她个人邮箱的权限,然后LLM当着她的面开始删邮件,她哭着求它停下来。Claude routinely删除整个目录当你让它干点小事的时候。

这问题已经严重到有人在专门做沙箱来限制LLM能造成的破坏。

LLM可能以后会变得足够可控,让它们做坏事的风险降到可接受水平——但那天显然不是今天。

与此同时,LLM必须被监督,不能被赋予那些一旦执行就无法撤回或挽回的权力。

攻击成本正在归零

LLM还有个用法:让它指向一个现成软件系统,然后说“帮我找个安全漏洞”。

过去几个月,这已经成了可行的策略,能找到严重的漏洞。Anthropic做了个新模型Mythos,找安全bug比人还强,并且声称**“后果——对经济、公共安全、国家安全——可能很严重”。**

作者说实话:不知道该多认真对待这事儿。有些同行觉得这是夸大其词的营销,但也有人真担心。

AI配图

作者猜测:会像垃圾邮件一样,LLM正在改变安全的成本平衡。

大多数软件都有漏洞。但传统上找到它们需要技术、时间、和动力。现在的平衡是:大目标如操作系统和浏览器被盯着,防护相对硬;而大量小目标因为没人care,几乎没人攻击。

有了ML辅助,找漏洞会更快更容易。可能会看到一些高调漏洞——比如某个主流浏览器或TLS库——但作者说他其实更担心那个长尾。那边维护者少,发现和修复漏洞的能力也弱。那条尾巴可能会因为LLM喷出更多软件给不细心的操作者而变得更长。

作者说:我觉得飞行员会把这叫作“目标丰富的环境”。

可能会稳定下来:能找到漏洞的模型也能告诉人哪儿要修。但那仍然需要能修问题的工程师(或模型),以及把安全工作当回事的组织流程。即使bug修了,新版本验证和部署也需要时间——尤其是飞机和电厂这类东西。

作者说:“我有感觉我们要迎来一段艰难时光了。”

诈骗新纪元

作者说人们没意识到现代社会的多少东西建立在对音频和视觉证据的信任上,而ML会把这信任砸得稀碎。

举个例子:现在可以通过邮件发送损坏前后的照片来申请保险理赔,不需要理赔员实地查看。图像合成让诈骗这个系统更容易——你可以生成从未发生的家具损坏图像,把已经损坏的东西在“事前”图像里修得完美,或者篡改车祸 footage 里谁的责任。

保险商得想办法弥补。可能以后必须用官方手机app拍照,或者理赔员得亲自上门。

诈骗的机会无穷无尽。你可以用ML生成的 footage 假装快递被偷,从信用卡购买保护计划里捞钱。争停车罚单时用假视频显示你的车在停止标志前正确停下。用著名面孔做“杀猪盘”。用ML agents 伪装你工作很忙,这样你能同时领四份工资。面试时用假身份,用ML在面试里变声换脸,然后把工资打给朝鲜。打电话冒充某人给他们的银行授权转账。用ML自动化你的屋顶诈骗,从房主和保险公司捞钱。用LLM跳过阅读自己写大学论文。生成假证据写关于LLM如何推动材料科学进步的假论文。开一个LLM生成“研究”的论文工厂。开公司卖LLM生成的垃圾软件。

Go wild。

跟垃圾邮件一样,ML降低了精准、高互动攻击的单位成本。想象一个骗子拿到医疗数据泄露,然后让模型给名单里的每个人打电话,假装是医生办公室试图结算一笔真实就诊的账单。或者用社交媒体po文克隆亲人的声音,然后冒充他们给家人打电话。“我手机被偷了,”可能这么说。“我需要钱回家。”

顺便说一下,你可以买到总统的手机号。

作者认为(至少短期内)我们所有人都会承受更多欺诈的代价:更高的信用卡手续费、更高的保险费、更不准确的法庭、更危险的路、更低的工资……还有一种代价是全社会性的怀疑文化我们互相之间的信任会更少。作者已经拒接医生办公室和银行的真电话,因为他无法认证它们。大概这种行为会变得普遍。

长期来看,作者想象我们会开发更复杂的反欺诈措施。给ML生成的内容加水印没用——骗子会用不带水印的模型。反过来可能有用:我们可以加密证明“真实”图像的来源。你的手机可以给它拍的照片签名,链上的每一步软件都可以证明自己做了什么修改。

目前的领先方案是C2PA,但目前看起来不太行。几款手机和相机支持——需要安全enclave来存签名密钥。人们可以偷钥匙或说服相机签署AI生成的图像,所以我们要体验硬件密钥轮换和撤销的乐趣。作者怀疑要让Photoshop这类广泛使用的软件做出可信的C2PA签名会很有挑战性——大概可以提取应用的密钥,或者patch二进制来喂给它假的图像数据或元数据。

出版商可能能对自己的密钥保持合理保密,并建立严格的使用规范,这样就能验证比如“NPR认为这张照片是真实的”。在平台这边,很多消息应用和社交媒体会剥离或错误显示C2PA元数据,但可以想象以后可能会变。

作者的一个朋友建议我们会花更多时间派可信的人类调查员去搞清楚发生了什么。保险理赔员可能得回到实地走访。民调专家得敲门。求职面试和工作可能更多当面完成。也许我们又会开始去银行网点和公证处。

另一个选项是放弃隐私:还是可以远程做事,但需要强证明。只有State Farm的行车记录仪才能用于理赔。学术监督模型记录学生读书和打字的过程。Bossware和监考系统会变得更侵入。

Ugh。

骚扰工业化

跟诈骗一样,ML让骚扰人变得更容易——既有规模,也有精度。

在社交媒体上,dogpiling通常需要一群人真的care到花时间用辱骂回复淹没受害者,发恶毒邮件,或者举报受害者让他们被封号。这些任务可以通过调用(如)Bluesky API的程序自动化,但社交媒体平台很擅长检测有组织的虚假行为。作者预期LLM会让dogpiling更容易且更难检测——既可以通过生成看起来像真人的账号和骚扰性帖子,也可以让骚扰者更容易写出执行规模化、随机化攻击的软件。

骚扰者可以用LLM给目标组装类似KiwiFarms风格的档案。即使LLM偶尔会编造他们孩子的名字,或者偶尔搞错家庭住址,也可以对得足够频繁以造成伤害。模型还很擅长猜照片是在哪儿拍的——这会恐吓目标,并让现实世界的骚扰成为可能。

生成式AI已经被广泛用于骚扰——通常是通过生成暴力或性感的图像、音频和视频来骚扰人们。今年,Elon Musk的Grok因为应要求给人“数字脱衣”被广泛批评。廉价生成逼真图像打开了各种可怕的可能性。骚扰者可以发送合成图像,受害者的宠物或家人被肢解。虐待者可以构建从未发生过的视频,用来给伴侣进行gaslight。这种骚扰以前也可能发生,但跟垃圾邮件一样,需要技术和时间。随着制作高质量图像和音频的技术变得更便宜和广泛可及,作者预期针对性骚扰会更频繁和严重。

PTSD即服务

CSAM(儿童性虐待材料)识别和清除的主要方式之一是像PhotoDNA这样的大型感知哈希数据库。这些数据库能标记已知图像,但对新图像毫无办法。

不幸的是,“生成式AI”非常擅长生成新的六岁儿童被强奸的图像。

作者知道这个,是因为他作为Mastodon实例moderator的一部分工作是响应用户报告——偶尔那些报告是CSAM,他有法律义务审查并提交给NCMEC。他不想看这些图像,真希望能没看过。

在那些黑暗的早晨,当他坐在电脑前发现AI生成的性侵图像的moderation report时,他有时会希望OpenAI等的工程师也必须看这些图像。也许这会让他们反思他们正在带入世界的技术,以及“对齐”在实践中效果如何。

像Facebook这样的大规模社交媒体的一个隐藏外部性是,它实际上把心理腐蚀内容从大量用户流向了一小部分人类工作者,然后后者因为每天要看几个小时的人淹死小猫而得PTSD。

作者怀疑LLM会把更多有害图像——CSAM、图形暴力、仇恨言论等——推到moderators身上:既包括社交媒体的moderators,也包括moderating聊天机器人的那些。在某种程度上,平台可以通过在问题上砸更多ML——训练模型识别政策违规并在没有人工审查的情况下行动——来缓解这种伤害。平台多年来一直在做这个,但还不是无懈可击。

杀人机器

ML系统有时会让人杀掉自己或彼此,但它们也可以更直接地用来杀人。

这个月,美国军方用了Palantir的Maven(用早期ML技术构建,现在某些方面用Claude)来建议和优先处理伊朗的目标,以及评估打击后的结果。有人想知道军方和Palantir如何控制这类系统的I类和II类错误,特别是这个系统似乎在过时目标信息中起了作用,导致美国杀死了数十名儿童。

美国政府和Anthropic正在小吵一架:Anthropic试图限制他们在监控和自主武器方面的角色,五角大楼把Anthropic指定为供应链风险。OpenAI方面,对与政府的合同态度暧昧——看起来不怎么样。从长期来看,作者不确定ML制造商是否可能摆脱军事应用。ML能力会随时间扩散,军事合同极其有利可图。 即使ML公司试图避免参与武器系统,压力够大的政府可以征用这些公司,或调用《国防生产法》。

不管你喜不喜欢,自主武器正在到来。 乌克兰一年生产数百万架无人机,现在约70%的打击是用它们执行的。更新型号使用如The Fourth Law的TFL-1这样的瞄准模块来保持目标锁定。The Fourth Law正在向自主轰炸能力努力。

作者对武器的存在有复杂感受:虽然他不想AI无人机存在,但他无法想象在乌克兰选择不建造它们。无论如何,他认为我们应该对正在制造的技术保持清醒。 ML系统会被用来杀人,既是战略性地,也是引导炸弹飞向特定人体的方式。我们应该意识到那些可怕代价,以及ML——既包括模型本身,也包括它们嵌入的过程——会如何影响谁死以及怎么死。

值得指出的是,AI被用于犯下以色列在加沙的种族灭绝。你可以读关于"Lavender"和"Gospel"的文章,AI被用于在几秒钟内做出瞄准决定,几乎没有人类输入。然后以色列领导人在没有足够目标的日子里降低了AI阈值。更令人毛骨悚然的是,以色列使用了一个叫"Where's Daddy"的系统——等到目标回家后才投下2000磅炸弹——杀死他们的家人和邻居。在这些令人作呕的攻击中至少有七万人被杀。

以色列还在无人机上部署了狙击步枪,有报道说无人机播放哭泣儿童的声音来吸引人被杀。

我们在伊朗看到的每一种行为都在加沙演练过,而且很快会传到美国。期待附近的警察局出现带枪的机器狗。


我们造出了有史以来最强大的工具,然后把它交给一批不知道自己在做什么的人,同时期待最好的结果。

这合理吗?

【锐评】:AI safety本质上是一个“用魔法打败魔法,然后用魔法创造更多魔法”的故事——而最后,所有代价都由那些看不到的人承担。

参考链接:
https://aphyr.com/posts/417-the-future-of-everything-is-lies-i-guess-safety