英伟达开发了一种将2D照片转换为3D场景的方法

郎韦翰
导读 Nvidia的AI研究人员开发了一种方法,通过使用超快速神经网络训练和快速渲染,几乎可以立即将少量2D图像转换为3D场景。该过程被称为逆向渲染

Nvidia的AI研究人员开发了一种方法,通过使用超快速神经网络训练和快速渲染,几乎可以立即将少量2D图像转换为3D场景。该过程被称为逆向渲染,利用AI来近似光线在现实世界中的表现,从而将以不同角度拍摄的2D图像转换为3D场景。

Nvidia的研究人员将他们的新方法应用于一种流行的新技术,称为神经辐射场或简称NeRF。该公司称之为InstantNeRF的结果是迄今为止最快的NeRF技术,在某些情况下它的速度超过1,000倍。所使用的神经模型只需要几秒钟就可以对几十张静态照片进行训练,尽管它还需要有关拍摄它们的相机角度的数据。

Nvidia图形研究副总裁DavidLuebke在一篇博文中提供了NeRF和InstantNeRF之间差异的进一步见解,他说:

“如果像多边形网格这样的传统3D表示类似于矢量图像,那么NeRF就像位图图像:它们密集地捕捉光从物体或场景中辐射的方式。从这个意义上说,InstantNeRF对3D的重要性可能不亚于数码相机和JPEG压缩对2D摄影的重要性——极大地提高了3D捕获和共享的速度、易用性和范围。”

潜在用例

通过使用神经网络,NeRFs能够基于2D图像的输入集合来渲染逼真的3D场景。然而,最有趣的部分是用于创建它们的神经网络如何能够填充2D图像之间的空白,即使其中的物体或人被障碍物阻挡。

通常,使用传统方法创建3D场景可能需要几个小时到几个小时,具体取决于可视化的复杂性和分辨率。不过,通过将AI引入图片,即使是早期的NeRF模型也能够在经过几个小时的训练后,在几分钟内渲染出没有伪影的清晰场景。

Nvidia的InstantNeRF能够使用该公司开发的一种称为多分辨率哈希网格编码的技术将所需的渲染时间减少几个数量级,该技术已经过优化,可在NvidiaGPU上高效运行。该公司在GTC2022上展示的模型使用NvidiaCUDA工具包和TinyCUDA神经网络库,可以在单个NvidiaGPU上进行训练和运行,尽管具有NvidiaTensorCores的显卡可以更快地处理工作。

展望未来,InstantNeRF技术可用于快速创建虚拟世界的化身或场景,以3D形式捕捉视频会议参与者及其环境,或为3D数字地图重建场景。或者,该技术还可以用于训练机器人和自动驾驶汽车,以便它们通过捕获它们的2D图像或视频片段来更好地了解现实世界物体的大小和形状。同时,建筑和行业可以使用InstantNeRF快速生成真实环境的数字表示,创作者可以在此基础上进行修改和构建。

Nvidia的研究人员还在探索如何使用他们的新输入编码技术来加速各种AI挑战,例如强化学习、语言翻译和通用深度学习算法。

标签:

版权声明:本文由用户上传,如有侵权请联系删除!