web-supplemented 2026-06-05 19:13 MiniMax-M3

英伟达联手苏黎世联邦理工推出 ArtiFixer：3D 重建盲区填补提速 70 倍，画质领先 SOTA 近 3 dB

英伟达与苏黎世联邦理工学院在 SIGGRAPH 2026 上联合发布 3D 重建框架 ArtiFixer，通过把双向视频大模型蒸馏为自回归生成器，将稀疏视角下 3D 重建在盲区填补的速度提升约 70 倍，并在 DL3DV、Mip-NeRF 360 等基准上以约 3 dB 的 PSNR 优势刷新当前最优水平。

nvidiaartifixer3dreconstruction3dgsvideodiffusionsiggraph2026dmdai

References

英伟达联手苏黎世联邦理工推出 ArtiFixer：把视频大模型蒸馏成 3D 重建的「修复师」

3D 高斯泼溅（3DGS）等神经重建方法在面对稀疏视角或大范围运动时，常常因为「没拍到」的区域而产生空洞和伪影，这一直是把 3D 重建推向消费级应用的最大瓶颈之一。在将于 SIGGRAPH 2026 亮相的一篇论文中，英伟达 SIL 实验室联合苏黎世联邦理工学院（ETH Zürich）提出了一个名为 ArtiFixer 的两阶段框架：先用双向视频扩散模型生成未知视角的合理内容，再把这些能力蒸馏到一个自回归生成器中，从而把「拍不到」的区域补得又快又清晰。

第一阶段：双向流匹配补全未知视角

团队基于开源视频大模型 Wan2.1-T2V-14B 训练了一个双向流匹配（flow matching）模型。给定一段已重建的 3D 场景，模型会在已知区域保持与现有几何完全一致的同时，在未观测到的「盲区」中合成新内容。其关键设计是 不透明度混合策略：把已知区域的特征与未知区域的噪声按不透明度（opacity）做线性混合，相当于在生成过程中给 3D 重建结果加了一道软掩码。相机姿态与光线信息则通过 像素级普吕克光线图（pixel-wise Plücker ray maps） 输入，让模型精确感知「当前像素是从哪个视角看出去的」，从而保证新生成内容与已建场景在几何上无缝衔接。

第二阶段：用 DMD 把双向模型蒸馏成自回归生成器

第一阶段的双向模型虽然质量好，但每生成一帧都要重算整段时序，难以实时。第二阶段通过 分布匹配蒸馏（Distribution Matching Distillation, DMD） 将其压缩为一个自回归模型。蒸馏后的模型能够：

利用 KV 缓存 复用历史计算；
采用 少步采样 加速去噪；
在自回归生成中一次性产出数百帧视角。

由于新模型不再从纯噪声出发，而是直接以「已有重建 + 少量噪声」作为起点，避免了传统扩散模型漫长的迭代过程，画面的清晰度也得以保留。

速度与画质：单卡 GB300 上最高 34.38 FPS

在单块 NVIDIA GB300 GPU 上的测试中：

14B 参数版本达到 8.36 FPS，相比原始双向视频扩散流程提速约 70 倍；
1.3B 轻量级版本达到 34.38 FPS，已经接近实时渲染量级。

三种变体，覆盖锐利度与一致性权衡

ArtiFixer 提供三种使用方式：

ArtiFixer（默认版）：直接由生成器输出 RGB 视角，图像最锐利，适合对画质优先的应用；
ArtiFixer3D：把生成结果再蒸馏回 3D 高斯泼溅表示，强调 3D 一致性；
ArtiFixer3D+：在 3D 表示之上把生成器作为后处理模块，兼顾锐利度与一致性，是论文主推的方案。

基准评测：盲区场景 PSNR 领先约 3.12 dB

DL3DV 盲区测试：ArtiFixer3D+ 的图像质量（PSNR）达到 20.15 dB，比此前的最优方法 GenFusion 高出约 3.12 dB；
Mip-NeRF 360 稀疏视角评测：在 3、6、9 输入视角三种设置下，ArtiFixer 都稳定超越 3DGS、GenFusion 等 SOTA 算法。

换句话说，无论是从「绝对画质」还是「稀疏视角鲁棒性」的角度看，ArtiFixer 都把 3D 重建盲区填补这件事推上了一个新的台阶。

意义：从「拍下来」到「生成出来」

3D 重建长期被「拍不到」所限制：用户拍一圈街景、扫一个房间，常常要补拍、删帧、人工清理。ArtiFixer 的思路——把大模型对真实世界的先验蒸馏进一个轻量、自回归的生成器——意味着重建流程可以主动想象未观测区域，并保持几何一致。在自动驾驶仿真、AR/VR 资产重建、数字孪生与文物保护等场景中，这项能力都有直接的应用价值。

更多技术细节和项目视频可在 NVIDIA 官方项目页查看。