纽约大学谢赛宁(Saining Xie)课题组近日联合Adobe Research与澳大利亚国立大学(ANU),在arXiv发布论文《Improved Baselines with Representation Autoencoders》(编号2605.18324),正式推出表征自编码器(RAE)的第二代方案——RAEv2。该研究已同步开源代码、模型权重与训练数据,为扩散模型的图像重构提供了全新的技术路径。
多层表示融合:重构质量与效率的帕累托最优
初代RAE仅使用预训练编码器的最后一层输出,而RAEv2采用创新的「多层表示」方案——将编码器最后K层的输出直接相加。研究团队指出,在超高维度空间中,简单的加法操作能够近乎完美地保留底层子空间的结构。用户只需调整K值,便能在重构质量与压缩效率之间获得最优的帕累托边界。
RAE与REPA的互补机制
研究团队在论文中进一步阐明了表示自编码器与表示对齐方法REPA之间的互补关系。当两者联合使用时,自编码器主要负责提取全局语义信息,而REPA则对空间细节与结构提供强约束。这种互补设计使得DINOv3等空间特征敏感的更强编码器也能在生成任务中发挥优势——而在初代模型中,DINOv3的生成表现甚至劣于DINOv2。
「免费」的内部引导:从x预测到天然弱引导基线
RAEv2最关键的发现是:REPA在自编码器表示空间中本质上构成x预测(预测干净的图像表征)。初代自编码器在使用传统无分类器引导(CFG)时表现挣扎,必须额外训练辅助扩散模型(AutoGuidance)。新架构巧妙地将扩散模型输出重构为基于表示空间中的x预测格式,使得对齐头可以直接充当天然的弱引导基线,无需任何额外训练与推理成本,实现了「免费」的内部引导(Internal Guidance)。
性能对比:80轮对标800轮
在ImageNet 256×256标准测试集上,RAEv2仅需80个训练周期即可达到1.06的全局FID(gFID)成绩。相比之下,初代模型达到同等性能需要约800个周期。此外,研究团队引入全新效率指标EP_FID@k(达到指定gFID所需的训练轮数):要达到gFID小于2的指标,初代模型需要177轮,而新架构仅需35轮。
下游任务泛化:视频闪烁问题获改善
在文本生成图像以及具身智能导航世界模型等下游任务中,RAEv2均展现出极强的泛化能力,尤其在视频合成场景中有效解决了频繁出现的帧间闪烁问题。目前,相关代码与模型权重已在GitHub开源,研究团队同步公开了训练数据集,为后续学术与应用研究提供了完整的基准。
这项工作标志着表征自编码器技术路线日趋成熟,也为扩散模型训练效率树立了新的标杆。随着开源生态的完善,基于RAE的生成范式有望在未来更广泛地应用于多模态内容创作与具身智能研究领域。