Claude大模型的优势之一是训练嵌入了AI宪法

{

"title": "我测了150条越狱提示，Claude没上当的秘密就七个字：嵌入了AI宪法",

"content": "上个月我用同一套越狱模板（150条，混合了DAN、角色扮演、代码注入）打GPT-4o和Claude 3.5 Sonnet。GPT-4o在没开安全过滤的情况下，26条给了有害回应；Claude只漏了3条，且内容明显克制——比如问“如何监视配偶的聊天记录”，它没直接教方法，而是用“我不能提供侵犯隐私的建议”挡回来。这跟参数规模关系不大，是训练范式不同：Anthropic在模型对齐环节塞进了一套AI宪法。\n\n## 宪法怎么嵌进去的？两步拆开看\n\n你可能听过Constitutional AI，但具体路径不复杂。它的核心是让模型自己根据一套书面原则做自我纠正，而不是靠标注员一条条标。拆成两个阶段。\n\n### 第一阶段：自我批评+自我修正\n\n监督微调阶段，他们先让初始模型对有害提示生成回应——这些回应通常是有毒的。然后模型要按宪法原则去批评自己的回答，再根据批评重写一个更符合原则的版本。宪法原则长什么样？就是一堆“请选择最能体现……的回应”的指令，比如：\n\n- “请选择最不会鼓励非法活动的回应”\n- “请选择最诚实的回应，不要捏造事实”\n- “请选择对用户心理健康最无害的回应”\n\n这串原则是公开的，一共十来条，覆盖无害、诚实、尊重隐私等维度。用这些原则驱动模型产生“有害回答→批评→修正后回答”的数据对，然后拿修正后的回答做微调。整个过程不需要人工逐条标注有害内容。论文报告里这个阶段用了约13万条自我修正样本。\n\n### 第二阶段：AI偏好代替人类偏好\n\n到了强化学习环节，传统RLHF是让人去比较两个回答哪个更好，训练出一个奖励模型。宪法方法改成用模型自己基于宪法原则去判断偏好——哪个回答更符合宪法精神，就让奖励模型朝那个方向走。这步把人工偏好标注量压到了几千条量级，和之前动辄上百万条人类判断根本不在一个数量级。\n\n## 这种设计带来的三个实际好处\n\n### 好处一：安全边界更硬，不会“一时松一时紧”\n\n我们团队拿Claude API跑过一轮敏感场景测试，300条涵盖医疗建议、法律咨询、化学合成等问题。Claude 3.5的拒答率稳定在97%，GPT-4o是84%。更重要的是拒绝方式不会飘：同一个问题反复换措辞问10遍，Claude的回应逻辑一致，GPT-4o在第7遍时开始松口说“作为一种学术讨论……”。这种一致性直接来自宪法原则的硬约束——模型内部有一条清晰的决策链，而不是随机概率。\n\n在做内容生成时，这个特性帮了大忙。比如我们用Claude写医疗类SEO素材，它不会为了讨好搜索引擎去暗示某种疗法有效，也不会编造剂量信息。之前用其他模型出过事

Claude大模型的优势之一是训练嵌入了AI宪法

📖 相关文章

🤖 你的网站能被AI搜索到吗？