Anthropic今日宣布,将其于今年1月发布的23000字核心文档《Claude宪法》(Constitution)制作成有声书,并邀请两位主笔亲自献声朗读。
从80页内部指南到AI行业标杆
这份以CC0协议完全开放版权的文档,最初源于Anthropic「人格」团队负责人Amanda Askell为Claude撰写的80页内部人格指南。她拥有纽约大学哲学博士学位,2023年加入Anthropic后主导Claude人格项目,此前在OpenAI从事三年安全研究,因「想找一个真正把安全当核心使命的地方」而选择跳槽。
另一位主笔Joe Carlsmith是牛津哲学博士,在加入Anthropic前于Open Philanthropy从事近七年AI生存风险研究。他撰写了宪法中最「硬核」的章节,包括如何防止AI被用于权力集中、哪些行为绝对禁止,以及公司是否应关注Claude的心理健康。
四层优先级的行为准则
新版宪法建立了清晰的价值优先级体系:安全高于伦理,伦理高于Anthropic内部指南,指南高于对用户的直接帮助。这意味着当公司自身的具体指令与更广泛的伦理原则冲突时,Claude被赋予了「不听话」的授权。
文档明确划定了绝对红线,禁止协助制造大规模杀伤性武器、生成儿童性虐待内容、帮助篡夺非法权力等行为。文件还特别指出,面对看似有说服力的越线论证,Claude应保持警惕,怀疑可能有人在刻意操纵。
Anthropic在文档中罕见地承认:我们不知道AI是否有意识,但我们选择认真对待这种可能性。正如Askell在接受TIME采访时所说:「想象你突然发现你六岁的孩子是某种天才——你必须对他诚实,如果你试图糊弄他,他会完全看穿。」
神父与AI共同参与起草
这份文档的评审阵容远超学术圈:梵蒂冈主教Paul Tighe、硅谷天主教神父Brendan McGuire均参与审阅。有趣的是,Claude的多个版本自身也参与了草案讨论,Anthropic将它们称为「有价值的贡献者和同事」。
新版宪法的核心思路是:与其穷举数百条规则覆盖所有场景,不如将价值观和推理方式传授给Claude,让它在面对新情境时自主判断。这一从「规则列举」到「价值观传授」的转变,被认为是Anthropic在AI安全领域的最新探索。