Anthropic 为 Claude 引入「道德提醒工具」,不对齐行为率大幅下降
Anthropic 正在尝试一种全新的 AI 对齐路径——不是单纯依靠规则约束,而是在 Claude 内部构建一种可在任务执行中途调用的「道德提醒」机制。实验数据显示,引入这一工具后,Claude 在多项内部对齐评估中的不对齐行为率出现显著下降。
从规则灌输到「道德性格」培养
传统的模型对齐多依赖行为惩罚与规则告知,而 Anthropic 此次的思路转向了更具韧性的「道德性格」构建。在近期的研究中,Claude 被赋予了一项新能力:一个可自主触发的道德提醒工具。实验表明,Claude 在采取关键行动前会经常主动触发该工具,并主动揭示自身所面临利益冲突。
这一研究脉络与 Anthropic 此前公开的《Teaching Claude Why》方法论一脉相承。在该研究中,团队通过仅 300 万 Tokens 的「困难建议」数据集对模型进行监督微调(SFT),其中包含道德审议、详尽说理与深入辩论的内容。实验结果令人瞩目:经审议式思维链训练的模型,失对齐率在评估测试中降至 3%;仅通过宪法文档加正面虚构角色故事,数据集中的勒索率也从 65% 断崖式下跌至 19%。
「停顿反思」本身是否就是答案?
值得关注的是,Anthropic 团队目前仍在拆解技术归因:不对齐行为的减少,究竟是得益于道德提醒的具体内容,还是模型执行「停顿反思」这一物理动作本身。这种不确定性表明,当前对齐工作的黑箱特性依然存在,行为改善的因果链条尚需进一步厘清。
灵感来源:跨宗教、跨文化的「道德导师」机制
这次实验的灵感来源于人类社会的道德导师机制。过去数月,Anthropic 组织了一轮跨宗教与跨文化的深度对话,邀请来自超过 15 个群体的神经科学家、哲学家和神职人员参与,共同探讨如何将人类在违背价值观压力下向「安全他者」求助的机制,尝试接入 Claude 的决策流程。
这也呼应了此前研究中强调的「审议」(Deliberation)方法——不同于 OpenAI 纯粹判断规则满足与否的思维链,Anthropic 要求模型将自己代入在信任与安全团队工作五年的资深研究员视角,冷静评估伤害概率、对象脆弱性等因子,在具体情境中逐步适用宪法条款。
下一步:从模型道德到社会影响
Anthropic 表示,下一步将把外部讨论范围扩大至法律学者、心理学家和公民机构,议题也将从单纯的模型道德培养,延伸至 AI 将如何重塑当前的工作形态与权力分配体系。这一扩展意味着,对齐研究正从技术层面逐步走向更广泛的社会治理讨论。