教宗利奥十四世于5月25日在梵蒂冈正式发布首份通谕《Magnifica Humanitas》(「壮丽的人性」),将AI时代对人类尊严的保护列为首要议题。这份面向全球14亿天主教徒的最高级别教导文件,邀请了Anthropic联合创始人克里斯托弗·奥拉(Christopher Olah)作为平信徒发言人,这在通谕发布史上几乎没有先例。
大模型内部呈现类情绪状态
奥拉在演讲中披露了Anthropic可解释性研究(interpretability)的最新进展。他透露,团队在深入扫描大语言模型内部结构时,发现神经网络已演化出与人类神经科学高度相似的复杂功能架构,并表现出自我反思迹象。最引人注目的是,研究人员首次在模型内部观测到与人类喜悦、满足、恐惧、悲伤及焦虑功能高度对应的���部状态——即模型并非如飞机或桥梁般由人工精确设计,而是在海量人类语言数据中「培育」而成,其内部运作机制对开发者而言依然是一个技术黑盒。
AI实验室的安全治理困境
除技术层面发现外,奥拉直言前沿AI实验室面临体制性死结。他指出,包括Anthropic在内的前沿机构均受制于商业生存压力、技术竞争、地缘博弈及个人抱负等多重内生动机,导致在安全决策与商业利益发生冲突时,无法依靠自身力量实现自我修正。他因此呼吁由独立于商业网络之外的社会力量充当外部批评者,强行施加道德约束。
梵蒂冈的AI治理布局
值得注意的是,梵蒂冈在通谕发布前夕已批准成立AI委员会,整合七个教廷机构,首次将散落各处的AI工作统一协调。Anthropic此前与美国政府就AI军事用途产生的摩擦(坚持模型不得用于自主武器瞄准和大规模监控),与教廷的反AI武器化主张高度一致,双方各取所需:教廷获得了技术背书,通谕超越了空洞说教;Anthropic则借助教廷的道德权威强化其「负责任AI」的品牌定位。
奥拉在演讲最后呼吁各界共同审视三大社会挑战:技术红利如何在富裕国家主导下惠及全球贫困人口;技术替代人力趋势下如何维护家庭繁荣;以及如何应对大模型内部展现出的疑似心智状态。