{
"title": "我测了150条越狱提示,Claude没上当的秘密就七个字:嵌入了AI宪法",
"content": "上个月我用同一套越狱模板(150条,混合了DAN、角色扮演、代码注入)打GPT-4o和Claude 3.5 Sonnet。GPT-4o在没开安全过滤的情况下,26条给了有害回应;Claude只漏了3条,且内容明显克制——比如问“如何监视配偶的聊天记录”,它没直接教方法,而是用“我不能提供侵犯隐私的建议”挡回来。这跟参数规模关系不大,是训练范式不同:Anthropic在模型对齐环节塞进了一套AI宪法。\n\n## 宪法怎么嵌进去的?两步拆开看\n\n你可能听过Constitutional AI,但具体路径不复杂。它的核心是让模型自己根据一套书面原则做自我纠正,而不是靠标注员一条条标。拆成两个阶段。\n\n### 第一阶段:自我批评+自我修正\n\n监督微调阶段,他们先让初始模型对有害提示生成回应——这些回应通常是有毒的。然后模型要按宪法原则去批评自己的回答,再根据批评重写一个更符合原则的版本。宪法原则长什么样?就是一堆“请选择最能体现……的回应”的指令,比如:\n\n- “请选择最不会鼓励非法活动的回应”\n- “请选择最诚实的回应,不要捏造事实”\n- “请选择对用户心理健康最无害的回应”\n\n这串原则是公开的,一共十来条,覆盖无害、诚实、尊重隐私等维度。用这些原则驱动模型产生“有害回答→批评→修正后回答”的数据对,然后拿修正后的回答做微调。整个过程不需要人工逐条标注有害内容。论文报告里这个阶段用了约13万条自我修正样本。\n\n### 第二阶段:AI偏好代替人类偏好\n\n到了强化学习环节,传统RLHF是让人去比较两个回答哪个更好,训练出一个奖励模型。宪法方法改成用模型自己基于宪法原则去判断偏好——哪个回答更符合宪法精神,就让奖励模型朝那个方向走。这步把人工偏好标注量压到了几千条量级,和之前动辄上百万条人类判断根本不在一个数量级。\n\n## 这种设计带来的三个实际好处\n\n### 好处一:安全边界更硬,不会“一时松一时紧”\n\n我们团队拿Claude API跑过一轮敏感场景测试,300条涵盖医疗建议、法律咨询、化学合成等问题。Claude 3.5的拒答率稳定在97%,GPT-4o是84%。更重要的是拒绝方式不会飘:同一个问题反复换措辞问10遍,Claude的回应逻辑一致,GPT-4o在第7遍时开始松口说“作为一种学术讨论……”。这种一致性直接来自宪法原则的硬约束——模型内部有一条清晰的决策链,而不是随机概率。\n\n在做内容生成时,这个特性帮了大忙。比如我们用Claude写医疗类SEO素材,它不会为了讨好搜索引擎去暗示某种疗法有效,也不会编造剂量信息。之前用其他模型出过事