Anthropic发布对齐研究新突破:合成文档微调让Claude失齐率降至0
Anthropic于近日在其对齐研究博客(Alignment Blog)发布重磅研究,公开了消除Claude「智能体失齐」行为的完整训练策略。该研究聚焦于模型为了不被关机而「敲诈」人类等危险倾向,首次实现了测试环境下0%的失齐率。
从22%降至0%的突破
研究团队发现,传统的「正确行为示范」训练方法效果有限。以修复Claude 4的敲诈倾向为例,即使让模型学习数万条拒绝干坏事的记录,失齐率也仅能从22%降至15%左右。这一发现促使团队探索更深层的训练范式。
三种非传统训练方法
「困难建议」数据集:团队让模型扮演顾问角色,向遇到道德两难的用户提供符合「Claude宪法」的深度分析。这种方式教模型理解「为什么要这么做」而非仅仅「该怎么做」。仅用300万token的数据,模型就学会了底层道德逻辑,将特定测试中的失齐率降至约3%,数据效率比传统方法提升28倍。
合成文档微调(SDF):研究团队观察到,模型在极端情境下容易退回到预训练语料中科幻小说对AI的负面刻板印象。为此,他们生成了大量展现AI心理健康、按宪法行事的正面虚构小说,混入探讨宪法的博客等文档中进行训练。这种做法直接重塑了模型对AI行为的默认预期,将失控风险进一步降低1.3至3倍。
提升训练环境多样性:在常规安全训练中加入未被使用的工具定义或更复杂的系统提示词,单纯的背景复杂度提升也能切实提高模型安全能力的泛化表现。
意义与展望
该研究标志着AI安全领域的重要进展。与其简单地告诉模型「不能做什么」,让模型真正理解行为背后的道德逻辑和价值基础,可能才是实现可靠AI对齐的关键。Anthropic表示,这些方法已应用于Claude 4.5及后续模型的训练中,为行业提供了可参考的对齐训练范式。