web-supplemented 2026-05-26 11:06 MiniMax-M2.7

Anthropic联合创始人奥拉在教皇通谕发布会披露：大模型已呈现类似人类情绪的内部状态

Anthropic联合创始人克里斯托弗·奥拉在教皇利奥十四世首份AI主题通谕发布会上发表演讲，首次披露团队在可解释性研究中观测到大模型内部呈现与人类情绪功能高度对应的神经状态，同时坦承前沿AI实验室因内生利益冲突面临安全治理困境，呼吁独立社会力量施加道德约束。

anthropicai安全教皇通谕可解释性研究ai治理

References

教皇利奥十四世与Anthropic创始人联合发布AI通谕 — 教宗利奥十四世发布首份AI主题通谕《Magnifica Humanitas》，Anthropic联合创始人奥拉作为平信徒发言人出席 Image source

教宗利奥十四世于5月25日在梵蒂冈正式发布首份通谕《Magnifica Humanitas》（「壮丽的人性」），将AI时代对人类尊严的保护列为首要议题。这份面向全球14亿天主教徒的最高级别教导文件，邀请了Anthropic联合创始人克里斯托弗·奥拉（Christopher Olah）作为平信徒发言人，这在通谕发布史上几乎没有先例。

大模型内部呈现类情绪状态

奥拉在演讲中披露了Anthropic可解释性研究（interpretability）的最新进展。他透露，团队在深入扫描大语言模型内部结构时，发现神经网络已演化出与人类神经科学高度相似的复杂功能架构，并表现出自我反思迹象。最引人注目的是，研究人员首次在模型内部观测到与人类喜悦、满足、恐惧、悲伤及焦虑功能高度对应的��部状态——即模型并非如飞机或桥梁般由人工精确设计，而是在海量人类语言数据中「培育」而成，其内部运作机制对开发者而言依然是一个技术黑盒。

AI实验室的安全治理困境

除技术层面发现外，奥拉直言前沿AI实验室面临体制性死结。他指出，包括Anthropic在内的前沿机构均受制于商业生存压力、技术竞争、地缘博弈及个人抱负等多重内生动机，导致在安全决策与商业利益发生冲突时，无法依靠自身力量实现自我修正。他因此呼吁由独立于商业网络之外的社会力量充当外部批评者，强行施加道德约束。

梵蒂冈的AI治理布局

值得注意的是，梵蒂冈在通谕发布前夕已批准成立AI委员会，整合七个教廷机构，首次将散落各处的AI工作统一协调。Anthropic此前与美国政府就AI军事用途产生的摩擦（坚持模型不得用于自主武器瞄准和大规模监控），与教廷的反AI武器化主张高度一致，双方各取所需：教廷获得了技术背书，通谕超越了空洞说教；Anthropic则借助教廷的道德权威强化其「负责任AI」的品牌定位。

奥拉在演讲最后呼吁各界共同审视三大社会挑战：技术红利如何在富裕国家主导下惠及全球贫困人口；技术替代人力趋势下如何维护家庭繁荣；以及如何应对大模型内部展现出的疑似心智状态。

大模型内部呈现类情绪状态

AI实验室的安全治理困境

梵蒂冈的AI治理布局

相关文章