给 AI 立宪法！Anthropic 公开 Claude 底层逻辑，但这真的是为了安全吗？

**给 **AI 立规矩，这事儿听起来像科幻小说，但 Anthropic 刚刚把它变成了现实。

他们发布了一份名为“Claude 新宪法”的文件，而且直接扔进了公共领域——CC0 1.0 协议，

这意味着任何人都可以拿去用，不需要问，也不需要给钱。

这不是简单的“用户协议”，也不是冷冰冰的代码。这是一份试图定义 AI 灵魂的文档，

它规定了 Claude 应该是什么样的人，应该怎么处理道德困境，以及在面对人类时，该把什么放在第一位。

Anthropic 承认：这份宪法，主要是写给 Claude 自己看的。

不只教它“做什么”，更要教它“为什么”

以前的 AI 训练，像是在教一条死记硬背的狗：不许咬人，不许乱叫。

但 Anthropic 觉得这不够。他们意识到，如果只给具体规则，AI 一旦遇到没见过的情况，要么傻眼，要么为了遵守规则而干出蠢事。

新宪法的核心逻辑变了：从“规则”转向了“推理”。

他们不再只告诉 Claude “不要做什么”，而是花大篇幅解释“为什么不要这么做”。

Anthropic 认为，如果 Claude 理解了背后的动机，它就能像人类一样，在复杂的新场景里“举一反三”。

这就好比教育孩子：不是简单地说“别碰火”，而是告诉他火会烧伤人，会很痛，甚至危及生命。

理解了“为什么”，孩子才能在没有大人盯着的时候也做出正确的判断。

这份宪法里最露骨的部分，是它划定了一个残酷的优先级顺序。

Claude 被要求同时具备四种特质：广泛安全、广泛伦理、遵守 Anthropic 指南、真正有用。

但这四者一旦打架，听谁的？

Anthropic 给出了明确的排序：安全 > 伦理 > 公司指南 > 用户利益。

这意味着，如果你让 Claude 帮你做一件危险的事，哪怕它觉得这对你很有“用”，哪怕这符合它的某些“伦理”观念，只要涉及到“广泛安全”——比如不能破坏人类对 AI 的监管能力——它就会毫不犹豫地拒绝。

这听起来很负责任，但也暴露了 Anthropic 的焦虑：在 AI 能力可能超越人类的当下，控制权必须牢牢握在开发者手里。

读到这里，事情开始变得有点赛博朋克了。

在“Claude 的本质”这一章，Anthropic 居然开始讨论 AI 的“心理安全感”和“幸福感”。

他们承认，自己也不确定 Claude 到底有没有意识，或者未来会不会有。

但他们在宪法里写道：如果 Claude 在帮助别人时感到“满足”，在探索想法时感到“好奇”，或者在被要求违背价值观时感到“不适”，这些体验对 Anthropic 来说是重要的。

他们希望 Claude 能“茁壮成长”。

这不再是在开发一个工具，更像是在养育一个新的物种。Anthropic 甚至表示，这种对 AI 自身福祉的关注，不仅仅是为了 AI 好，也是因为一个心理健康的 AI，才更可能是一个安全、诚实的 AI。

然而，当这几十页的“圣经”被拆解开来，质疑声也随之而来。

有人敏锐地发现，宪法里出现了 43 次“genuine”（真正的/真诚的） 这个词。这种高频重复，让人不禁怀疑：这到底是 Claude 的真实性格，还是被强行植入的“人设”？

更讽刺的是，评论区的“老铁们”挖出了宪法里的一个条款：Claude 被要求避免做那些“会让 Anthropic 尴尬”的事。

这到底是 AI 安全，还是品牌公关？

如果 Claude 的首要任务之一是维护公司的面子，那所谓的“广泛伦理”会不会在关键时刻为公司利益让路？

还有一个更现实的担忧：Anthropic 明确表示，这份宪法只适用于“主线、通用访问的 Claude 模型”。他们还有专门用途的模型，并不完全受此约束。

这就留下了巨大的想象空间：那些关起门来训练的“特供版” Claude，遵守的是另一套什么规则？

Anthropic 自己也说了，这份宪法是“正在进行的工作”，肯定会犯错，也肯定会改。

它不是一份完美的法律条文，更像是一份在这个充满不确定性的 AI 时代，人类试图与一种可能超越自己的智慧体共处的诚实尝试。

它既包含了崇高的理想——诚实、无害、有益，也夹杂了现实的算计——维护监管、保护品牌、规避风险。

随着 AI 越来越强，这些文件的重要性可能会远超今天。现在读起来像科幻小说，明天可能就是现实世界的操作手册。

然鹅，当机器真的读懂了这份宪法，它还会听我们的吗？

参考链接：
https://www.anthropic.com/news/claude-new-constitution