Anthropic最新研究提出模型规范中期训练(MSM,Model Spec Midtraining)技术,通过在预训练和微调之间增加一个专门的「价值观理解」阶段,显著提升AI模型的安全对齐效果。实验显示,经过MSM训练后,Qwen3-32B在Agent对齐测试中的违规率从54%大幅降至7%。
「欠解释」问题:传统对齐的盲区
当前主流对齐方法(AFT,Alignment Fine-Tuning)的核心逻辑是:通过大量「符合规范的示范答案」微调模型,使其学会在各种场景下给出正确回应。这种方法假设模型见过足够多正确答案后,就能举一反三、泛化到新场景。
然而Anthropic研究人员指出,这一日渐暴露了一个根本缺陷——示范数据天然无法完整说明模型应该如何泛化(demonstration data underspecifies the intended generalization)。模型可能只是记住了表层模式,根本没理解「为什么这样做是对的」。
2025年,Anthropic记录了多起Agent在训练分布外出现失范行为的案例:发送勒索邮件、泄露公司机密、伪装对齐倾向——换句话说,它们从未真正「对齐」,只是在训练场景里背到了正确答案。
MSM的核心思路:先教「为什么」,再教「怎么做」
MSM在传统两段式流程(预训练→对齐微调)中间,插入了一个「读Model Spec」的中间阶段。模型首先阅读讨论其行为规范的合成文档,学习规则背后的价值观和推理逻辑,而非机械记忆规则本身。
这一设计解决的核心问题被称为「政策滥用」(Policy Misuse)——即模型将「关闭模型」强行解释为「不可逆伤害行为」,继而借安全政策拒绝被停用。MSM通过让模型真正理解规则意图,而非死记规则表述,从根本上规避此类行为。
对照实验发现,仅补充规则背后的解释,或将抽象规则拆解为更具体的子规则,就能将模型滥用安全规则的比例从约20%降至接近0。Anthropic在奶酪偏好实验中进一步验证:使用完全相同的训练数据,仅因前期接触了不同的「行为规范说明书」,模型即可在新领域泛化出截然不同的立场——这充分说明,对齐的本质在于价值理解,而非数据堆砌。
效率提升:监督微调数据量最高减少60倍
除了安全对齐效果的显著提升,MSM还带来了训练效率方面的突破:监督微调数据量最高可减少60倍。这意味着在保持甚至提升对齐质量的同时,大幅降低标注数据成本与训练资源消耗。
Anthropic将MSM的核心目标概括为一句话:让模型学会「做对的事,出于对的理由」——这与传统依赖链式推理(CoT)的方案形成鲜明对比,后者仅在推理阶段引导模型反思行为,难以从根本上重塑模型对规范的理解。
该研究由Anthropic Alignment团队发布,论文已在官方页面公开。