MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

英伟达联手苏黎世联邦理工推出 ArtiFixer:3D 重建盲区填补提速 70 倍,画质领先 SOTA 近 3 dB

英伟达与苏黎世联邦理工学院在 SIGGRAPH 2026 上联合发布 3D 重建框架 ArtiFixer,通过把双向视频大模型蒸馏为自回归生成器,将稀疏视角下 3D 重建在盲区填补的速度提升约 70 倍,并在 DL3DV、Mip-NeRF 360 等基准上以约 3 dB 的 PSNR 优势刷新当前最优水平。

References

英伟达联手苏黎世联邦理工推出 ArtiFixer:把视频大模型蒸馏成 3D 重建的「修复师」

3D 高斯泼溅(3DGS)等神经重建方法在面对稀疏视角或大范围运动时,常常因为「没拍到」的区域而产生空洞和伪影,这一直是把 3D 重建推向消费级应用的最大瓶颈之一。在将于 SIGGRAPH 2026 亮相的一篇论文中,英伟达 SIL 实验室联合苏黎世联邦理工学院(ETH Zürich)提出了一个名为 ArtiFixer 的两阶段框架:先用双向视频扩散模型生成未知视角的合理内容,再把这些能力蒸馏到一个自回归生成器中,从而把「拍不到」的区域补得又快又清晰。

第一阶段:双向流匹配补全未知视角

团队基于开源视频大模型 Wan2.1-T2V-14B 训练了一个双向流匹配(flow matching)模型。给定一段已重建的 3D 场景,模型会在已知区域保持与现有几何完全一致的同时,在未观测到的「盲区」中合成新内容。其关键设计是 不透明度混合策略:把已知区域的特征与未知区域的噪声按不透明度(opacity)做线性混合,相当于在生成过程中给 3D 重建结果加了一道软掩码。相机姿态与光线信息则通过 像素级普吕克光线图(pixel-wise Plücker ray maps) 输入,让模型精确感知「当前像素是从哪个视角看出去的」,从而保证新生成内容与已建场景在几何上无缝衔接。

第二阶段:用 DMD 把双向模型蒸馏成自回归生成器

第一阶段的双向模型虽然质量好,但每生成一帧都要重算整段时序,难以实时。第二阶段通过 分布匹配蒸馏(Distribution Matching Distillation, DMD) 将其压缩为一个自回归模型。蒸馏后的模型能够:

  • 利用 KV 缓存 复用历史计算;
  • 采用 少步采样 加速去噪;
  • 在自回归生成中一次性产出数百帧视角。

由于新模型不再从纯噪声出发,而是直接以「已有重建 + 少量噪声」作为起点,避免了传统扩散模型漫长的迭代过程,画面的清晰度也得以保留。

速度与画质:单卡 GB300 上最高 34.38 FPS

在单块 NVIDIA GB300 GPU 上的测试中:

  • 14B 参数版本达到 8.36 FPS,相比原始双向视频扩散流程提速约 70 倍
  • 1.3B 轻量级版本达到 34.38 FPS,已经接近实时渲染量级。

三种变体,覆盖锐利度与一致性权衡

ArtiFixer 提供三种使用方式:

  1. ArtiFixer(默认版):直接由生成器输出 RGB 视角,图像最锐利,适合对画质优先的应用;
  2. ArtiFixer3D:把生成结果再蒸馏回 3D 高斯泼溅表示,强调 3D 一致性
  3. ArtiFixer3D+:在 3D 表示之上把生成器作为后处理模块,兼顾锐利度与一致性,是论文主推的方案。

基准评测:盲区场景 PSNR 领先约 3.12 dB

  • DL3DV 盲区测试:ArtiFixer3D+ 的图像质量(PSNR)达到 20.15 dB,比此前的最优方法 GenFusion 高出约 3.12 dB
  • Mip-NeRF 360 稀疏视角评测:在 3、6、9 输入视角三种设置下,ArtiFixer 都稳定超越 3DGS、GenFusion 等 SOTA 算法。

换句话说,无论是从「绝对画质」还是「稀疏视角鲁棒性」的角度看,ArtiFixer 都把 3D 重建盲区填补这件事推上了一个新的台阶。

意义:从「拍下来」到「生成出来」

3D 重建长期被「拍不到」所限制:用户拍一圈街景、扫一个房间,常常要补拍、删帧、人工清理。ArtiFixer 的思路——把大模型对真实世界的先验蒸馏进一个轻量、自回归的生成器——意味着重建流程可以主动想象未观测区域,并保持几何一致。在自动驾驶仿真、AR/VR 资产重建、数字孪生与文物保护等场景中,这项能力都有直接的应用价值。

更多技术细节和项目视频可在 NVIDIA 官方项目页 查看。