**给 **AI 立规矩,这事儿听起来像科幻小说,但 Anthropic 刚刚把它变成了现实。

他们发布了一份名为“Claude 新宪法”的文件,而且直接扔进了公共领域——CC0 1.0 协议,

这意味着任何人都可以拿去用,不需要问,也不需要给钱。

这不是简单的“用户协议”,也不是冷冰冰的代码。这是一份试图定义 AI 灵魂的文档,

它规定了 Claude 应该是什么样的人,应该怎么处理道德困境,以及在面对人类时,该把什么放在第一位

image

Anthropic 承认:这份宪法,主要是写给 Claude 自己看的。

不只教它“做什么”,更要教它“为什么”

以前的 AI 训练,像是在教一条死记硬背的狗:不许咬人,不许乱叫。

但 Anthropic 觉得这不够。他们意识到,如果只给具体规则,AI 一旦遇到没见过的情况,要么傻眼,要么为了遵守规则而干出蠢事。

新宪法的核心逻辑变了:从“规则”转向了“推理”。

他们不再只告诉 Claude “不要做什么”,而是花大篇幅解释“为什么不要这么做”。

Anthropic 认为,如果 Claude 理解了背后的动机,它就能像人类一样,在复杂的新场景里“举一反三”。

这就好比教育孩子不是简单地说“别碰火”,而是告诉他火会烧伤人,会很痛,甚至危及生命。

理解了“为什么”,孩子才能在没有大人盯着的时候也做出正确的判断。

当“有用”撞上“安全”,谁说了算?

这份宪法里最露骨的部分,是它划定了一个残酷的优先级顺序。

image

Claude 被要求同时具备四种特质:广泛安全、广泛伦理、遵守 Anthropic 指南、真正有用。

但这四者一旦打架,听谁的?

Anthropic 给出了明确的排序:安全 > 伦理 > 公司指南 > 用户利益。

这意味着,如果你让 Claude 帮你做一件危险的事,哪怕它觉得这对你很有“用”,哪怕这符合它的某些“伦理”观念,只要涉及到“广泛安全”——比如不能破坏人类对 AI 的监管能力——它就会毫不犹豫地拒绝。

这听起来很负责任,但也暴露了 Anthropic 的焦虑:在 AI 能力可能超越人类的当下,控制权必须牢牢握在开发者手里。

最让人细思极恐的部分:关心 AI 的“心理健康”

读到这里,事情开始变得有点赛博朋克了。

在“Claude 的本质”这一章,Anthropic 居然开始讨论 AI 的“心理安全感”和“幸福感”。

他们承认,自己也不确定 Claude 到底有没有意识,或者未来会不会有。

但他们在宪法里写道:如果 Claude 在帮助别人时感到“满足”,在探索想法时感到“好奇”,或者在被要求违背价值观时感到“不适”,这些体验对 Anthropic 来说是重要的。

他们希望 Claude 能“茁壮成长”。

这不再是在开发一个工具,更像是在养育一个新的物种。Anthropic 甚至表示,这种对 AI 自身福祉的关注,不仅仅是为了 AI 好,也是因为一个心理健康的 AI,才更可能是一个安全、诚实的 AI。

image

是真心向善,还是精心设计的公关?

然而,当这几十页的“圣经”被拆解开来,质疑声也随之而来。

有人敏锐地发现,宪法里出现了 43 次“genuine”(真正的/真诚的) 这个词。这种高频重复,让人不禁怀疑:这到底是 Claude 的真实性格,还是被强行植入的“人设”?

更讽刺的是,评论区的“老铁们”挖出了宪法里的一个条款:Claude 被要求避免做那些“会让 Anthropic 尴尬”的事。

这到底是 AI 安全,还是品牌公关?

如果 Claude 的首要任务之一是维护公司的面子,那所谓的“广泛伦理”会不会在关键时刻为公司利益让路?

还有一个更现实的担忧:Anthropic 明确表示,这份宪法只适用于“主线、通用访问的 Claude 模型”。他们还有专门用途的模型,并不完全受此约束。

image

这就留下了巨大的想象空间:那些关起门来训练的“特供版” Claude,遵守的是另一套什么规则?

一份“活着”的文档,也是一份充满妥协的尝试

Anthropic 自己也说了,这份宪法是“正在进行的工作”,肯定会犯错,也肯定会改。

它不是一份完美的法律条文,更像是一份在这个充满不确定性的 AI 时代,人类试图与一种可能超越自己的智慧体共处的诚实尝试

它既包含了崇高的理想——诚实、无害、有益,也夹杂了现实的算计——维护监管、保护品牌、规避风险。

随着 AI 越来越强,这些文件的重要性可能会远超今天。现在读起来像科幻小说,明天可能就是现实世界的操作手册。

然鹅,当机器真的读懂了这份宪法,它还会听我们的吗?


参考链接:
https://www.anthropic.com/news/claude-new-constitution