Goodfire发布VPD技术:拆解大模型权重参数,找到约1万个可编辑「零件」
AI可解释性公司Goodfire近日发布了一项名为VPD(Adversarial Parameter Decomposition,对抗性参数分解)的新技术,能够将语言模型的权重参数拆解为约1万个可独立理解和编辑的子组件。这项突破性方法首次实现了对注意力层的系统性拆解,直击AI可解释性领域长期以来的一个核心瓶颈。
从「源代码」层面拆解模型
与当前主流的稀疏自编码器(SAE)方法不同——后者通过训练额外的解码器来解读模型运行时的中间信号——VPD直接对模型本身的「源代码」动刀,即固化在参数里的计算逻辑。
VPD的核心思路是将每个权重矩阵分解为一组秩一矩阵(最简单的矩阵形式),这些矩阵加在一起等于原始权重。随后,团队训练一个辅助网络来判断:对于任意一条输入,哪些子组件是因果必需的,哪些可以直接移除而不影响输出。
为防止辅助网络误判,训练过程还会主动搜索能推翻判断的反例——这正是「对抗性」一词的由来。
攻克注意力层拆解难题
此前,可解释性研究在处理注意力层时面临两难选择:要么绕开注意力层,要么只能在单个注意力头内部分析,无法捕捉跨头的分布式计算模式。
VPD突破了这一限制。实验结果显示,该方法能够直接从权重中提取出可解释的注意力模式,包括「前一个token」和「句法边界路由」两种典型算法。这意味着研究人员首次可以从模型参数层面观察和学习注意力机制的工作原理。
精准编辑能力获验证
除了拆解能力,团队还验证了VPD的精准编辑潜力:直接修改单个子组件就能改变模型的特定行为,且对其他能力几乎无影响。这种「原子级」的编辑能力,为未来构建更安全、更可控的AI系统奠定了技术基础。
商业化布局:VPD支撑Silico平台
VPD并非纯学术研究。Goodfire此前已推出商用可解释性平台Silico,VPD正是支撑该平台的底层技术路线此前,Goodfire还发布了面向开发者的Ember平台,支持可视化模型内部机制、自然语言指令修改模型等功能,并开源了多个适用于Llama、DeepSeek R1等主流模型的稀疏自动编码器。
2025年4月,Goodfire完成了5000万美元A轮融资,由Menlo Ventures领投,Anthropic等参投此前,公司在种子轮获得700万美元融资,由Lightspeed Venture Partners领投。
随着大模型在企业场景的深入应用,模型的可解释性和可控性正成为AI安全与合规的重要议题。VPD的出现,为从底层理解并干预模型行为提供了新的可能。