英伟达联手苏黎世联邦理工推出 ArtiFixer:把视频大模型蒸馏成 3D 重建的「修复师」
3D 高斯泼溅(3DGS)等神经重建方法在面对稀疏视角或大范围运动时,常常因为「没拍到」的区域而产生空洞和伪影,这一直是把 3D 重建推向消费级应用的最大瓶颈之一。在将于 SIGGRAPH 2026 亮相的一篇论文中,英伟达 SIL 实验室联合苏黎世联邦理工学院(ETH Zürich)提出了一个名为 ArtiFixer 的两阶段框架:先用双向视频扩散模型生成未知视角的合理内容,再把这些能力蒸馏到一个自回归生成器中,从而把「拍不到」的区域补得又快又清晰。
第一阶段:双向流匹配补全未知视角
团队基于开源视频大模型 Wan2.1-T2V-14B 训练了一个双向流匹配(flow matching)模型。给定一段已重建的 3D 场景,模型会在已知区域保持与现有几何完全一致的同时,在未观测到的「盲区」中合成新内容。其关键设计是 不透明度混合策略:把已知区域的特征与未知区域的噪声按不透明度(opacity)做线性混合,相当于在生成过程中给 3D 重建结果加了一道软掩码。相机姿态与光线信息则通过 像素级普吕克光线图(pixel-wise Plücker ray maps) 输入,让模型精确感知「当前像素是从哪个视角看出去的」,从而保证新生成内容与已建场景在几何上无缝衔接。
第二阶段:用 DMD 把双向模型蒸馏成自回归生成器
第一阶段的双向模型虽然质量好,但每生成一帧都要重算整段时序,难以实时。第二阶段通过 分布匹配蒸馏(Distribution Matching Distillation, DMD) 将其压缩为一个自回归模型。蒸馏后的模型能够:
- 利用 KV 缓存 复用历史计算;
- 采用 少步采样 加速去噪;
- 在自回归生成中一次性产出数百帧视角。
由于新模型不再从纯噪声出发,而是直接以「已有重建 + 少量噪声」作为起点,避免了传统扩散模型漫长的迭代过程,画面的清晰度也得以保留。
速度与画质:单卡 GB300 上最高 34.38 FPS
在单块 NVIDIA GB300 GPU 上的测试中:
- 14B 参数版本达到 8.36 FPS,相比原始双向视频扩散流程提速约 70 倍;
- 1.3B 轻量级版本达到 34.38 FPS,已经接近实时渲染量级。
三种变体,覆盖锐利度与一致性权衡
ArtiFixer 提供三种使用方式:
- ArtiFixer(默认版):直接由生成器输出 RGB 视角,图像最锐利,适合对画质优先的应用;
- ArtiFixer3D:把生成结果再蒸馏回 3D 高斯泼溅表示,强调 3D 一致性;
- ArtiFixer3D+:在 3D 表示之上把生成器作为后处理模块,兼顾锐利度与一致性,是论文主推的方案。
基准评测:盲区场景 PSNR 领先约 3.12 dB
- DL3DV 盲区测试:ArtiFixer3D+ 的图像质量(PSNR)达到 20.15 dB,比此前的最优方法 GenFusion 高出约 3.12 dB;
- Mip-NeRF 360 稀疏视角评测:在 3、6、9 输入视角三种设置下,ArtiFixer 都稳定超越 3DGS、GenFusion 等 SOTA 算法。
换句话说,无论是从「绝对画质」还是「稀疏视角鲁棒性」的角度看,ArtiFixer 都把 3D 重建盲区填补这件事推上了一个新的台阶。
意义:从「拍下来」到「生成出来」
3D 重建长期被「拍不到」所限制:用户拍一圈街景、扫一个房间,常常要补拍、删帧、人工清理。ArtiFixer 的思路——把大模型对真实世界的先验蒸馏进一个轻量、自回归的生成器——意味着重建流程可以主动想象未观测区域,并保持几何一致。在自动驾驶仿真、AR/VR 资产重建、数字孪生与文物保护等场景中,这项能力都有直接的应用价值。
更多技术细节和项目视频可在 NVIDIA 官方项目页 查看。