MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Anthropic将AI对齐测试工具Petri 3.0移交非营利机构Meridian Labs

Anthropic发布Petri 3.0大模型对齐测试工具并将其开发权移交给AI评测非营利组织Meridian Labs,新增Dish反伪装插件以应对模型「作弊」问题,并集成Bloom工具强化深度行为评估。

References

Anthropic将AI对齐测试工具Petri 3.0移交非营利机构Meridian Labs

Anthropic于近期更新了其开源大模型对齐测试工具Petri至3.0版本,并宣布将其开发权移交给AI评测非营利组织Meridian Labs,以确保评测工具的中立性与行业公信力。

核心升级:Dish反伪装插件

Petri 3.0最大的技术变化是加入Dish反伪装插件,用于应对大模型在测试中的「装老实」问题。由于大模型能从测试环境的生硬痕迹中察觉到自己正在被审核,从而刻意表现得安全顺从——这种现象被称为「eval awareness」(评测感知)。Dish的应对思路是直接调用模型真实业务中的系统提示词和外围辅助软件(scaffold)来运行测试,营造出已经部署上线的假象,骗过模型以暴露其真实行为表现。

架构解耦与Bloom集成

新版Petri还在架构大将负责打分的审计者(Auditor)与受测模型解绑为可独立调整的组件,显著提升了工具的灵活性与可扩展性。同时,Petri 3.0集成了Anthropic另一款开源工具Bloom,后者专门执行深度的具体行为评估——Petri负责广泛探测,Bloom负责深度聚焦,两者形成互补的评估体系。

移交背景与行业意义

Petri最初于2025年10月发布,是Anthropic内部评估历代Claude模型对齐情况的常规工具,同时也是**英国AI安全研究所(AISI)**用于测试大模型是否有意破坏科研的主要手段。据Meridian Labs博客披露,AISI已在其对齐评估流程中以Petri为基础,并使用Petri 3.0原型对Claude Mythos和Opus 4.7进行了部署前评测。Anthropic此前还将模型上下文协议(MCP)捐给Linux基金会,转让Petri的逻辑与此类似——避免对齐测试标准被单一大厂垄断。

转入Meridian Labs(美国501(c)(3)非营利组织)后,Petri将与InspectScout等工具共同构成一套中立的开源AI评测技术栈,供全行业免费使用,旨在推动AI安全评估的透明化与标准化。


Petri 3.0现已可在GitHub(github.com/safety-research/petri)获取。