研究人员提出首个可以渲染高动态范围(High Dynamic Range, HDR)自然光的 3DGaussian Splatting 模型 HDR-GS,以用于新视角合成(Novel View Synthesis, NVS)。
该方法可以根据用户输入的曝光时间来改变渲染场景的光照强度,同时还可以直接渲染高动态范围场景。比当前最好的算法 HDR-NeRF 速度上要快 1000 倍。
常见的 RGB 图像大都为低动态范围(Low Dynamic Range, LDR),亮度的取值范围在 [0,255] 之间。
然而人眼对亮度的感知范围要比 RGB 图像宽广得多,一般为 [0,+∞],导致 LDR 图像很难反映真实场景的亮度范围,使得一些较暗或者较亮的区域的细节难以被捕捉,高动态范围(High Dynamic Range,HDR)图像应运而生,具有更广的亮度范围。
新视角合成(Novel View Synthesis,NVS)任务是在给定「一个场景的几张不同视角图像,并且相机位置已知」的情况下,合成其他新视角的场景图像。
同比于 LDR NVS,HDR NVS 能更好地拟合人类视觉,捕获更多的场景细节,渲染更高质量、视觉效果更好的图片,在自动驾驶、图像编辑、数字人等方面有着十分广泛的应用。
当前主流的 HDR NVS 方法主要基于神经辐射场(Neural Radiance Fields, NeRF),然而,NeRF 的 ray tracing 加 volume rendering 机制都十分耗时,常常需要十分密集地采集射线,然后在每一条射线上采集多个 3D 点,对每一个 3D 点过一遍 MLP 来计算体密度和颜色,严重拖慢了训练时间和推理速度。当前最好的 NeRF 算法 HDR-NeRF 需要耗费 9 小时来训练一个场景,8.2 秒来渲染一张尺寸为 400x400 的图像。
为了解决上述问题,清华大学、上海交通大学、香港科技大学、约翰霍普金斯大学的研究人员提出了首个基于 3DGS 的方法 HDR-GS,用于三维 HDR 成像;设计了一种有着双动态范围的三维高斯点云模型,同时搭配两条平行的光栅化处理管线以用于渲染 HDR 图像和光照强度可控的 LDR 图像。
研究人员还重新矫正了一个 HDR 多视角图像数据集,计算得到的相机参数和初始化点云能够支持 3DGS 类算法的研究。HDR-GS 算法在超过当前最好方法 1.91 dB PSNR 的同时仅使用 6.3% 的训练时间并实现了 1000 倍的渲染速度。
一大波演示如下:
对比近期出现的 3D Gaussian Splatting(3DGS),虽然能在保证图像质量的同时也大幅提升了训练和渲染速度,但却很难直接应用到 HDR NVS 上,仍然存在三个主要问题:
1. 渲染的图片的动态范围依旧是 [0,255],仍旧属于 LDR;
2. 直接使用不同光照的图片来训练 3DGS 容易导致模型不收敛,因为 3DGS 的球谐函数(Spherical Harmonics,SH)无法适应光照的变化,时常会导致伪影、模糊、颜色畸变等问题;
3. 常规的 3DGS 无法改变渲染场景的亮度,极大限制了应用场景,尤其是在 AR / VR、电影、游戏等领域,经常需要改变光照条件来反映人物的心情与环境氛围。
方法架构
研究人员首先使用 Structure-from-Motion(SfM 算法来重新矫正场景的相机参数并初始化高斯点云,然后将数据喂入到双动态范围(Dual Dynamic Range,DDR)的高斯点云模型来同时拟合 HDR 和 LDR 颜色,使用 SH 来直接拟合 HDR 颜色。
再使用三个独立的 MLP 来分别对 RGB 三通道做 tone-mapping 操作,根据用户输入的曝光时间将 HDR 颜色转为 LDR 颜色,然后将 3D 点的 LDR 和 HDR 颜色喂入到平行光栅化(Parallel Differentiable Rasterization, PDR)处理管线来渲染出 HDR 和 LDR 图像。
实验结果
定量结果
合成实验和真实实验的定量对比结果分别如表 1 和表 2 所示,HDR-GS 在性能上显著超过之前方法的同时,训练和推理也分别达到了 16 倍速和 1000 倍速。
视觉结果
LDR NVS 的视觉对比结果如图 4 和图 5 所示,HDR NVS 的视觉对比结果如图 6 所示。HDR-GS 能够渲染出更丰富更清晰的图像细节,更好地捕获 HDR 场景并能灵活地改变 LDR 场景的光照强度。
参考资料:
https://arxiv.org/abs/2405.15125
发表评论