谷歌使用众包照片在3D中为AR/VR重建地标

从历史上看，人类艺术家一直面临着将现实世界的位置重新创建为3D模型的挑战，特别是在应用程序要求逼真的图像精度时。但是，谷歌研究人员提出了一种替代方案，该方案可以同时使用3D模型和神经网络，并同时将3D建模过程自动化并改善其结果，从而令人信服地复制3D地标和照明。

神经辐射场(NeRF)背后的想法是通过确定光线在何处终止从2D图像中提取3D深度数据，这是一项先进的技术，仅此一项就可以创建合理的纹理地标3D模型。Google的NeRF in Wild(NeRF-W)系统在几种方面走得更远。首先，它使用“野生照片集”作为输入，从而扩展了计算机从多个角度查看地标的能力。接下来，它评估图像以找到结构，分离出摄影和环境变化，例如图像曝光，场景照明，后处理和天气状况，以及逐个拍摄对象之间的差异，例如可能在一个人中图像，但没有另一个。然后，它将静态元素(结构几何和纹理)与提供体积辐射度的瞬态元素混合在一起，重新创建场景。

因此，NeRF-W的地标3D模型可以从多个角度平滑观看而不会出现抖动或伪影，同时照明系统使用检测到的变化为场景照明和阴影提供辐射指导。NeRF-W还可以将图像间的差异视为不确定性场，可以消除或去加重它们，而标准的NeRF系统则允许将这些差异显示为云状遮挡物，因为它不会将其与结构分离在图像摄取期间。

Google对标准NeRF结果与NeRF-W进行的视频比较表明，新的神经系统可以令人信服地重新创建3D地标，以使虚拟现实和增强现实设备的用户将能够体验其实际外观的复杂架构，包括一天中的时间和天气变化，超越了之前使用3D模型进行的工作。这也是对去年公开的类似替代产品“野外神经渲染”的改进，因为它可以更好地完成将3D结构与照明分离并在从不同角度查看对象时在时间上更加平滑的效果。

值得注意的是，Google当然不是唯一一家研究使用照片作为3D建模输入的公司。例如，英特尔研究人员正在使用多张照片以及循环编码器-解码器网络对未捕获的角度进行插值，从而在生成真实世界位置的合成版本方面进行自己的工作。尽管英特尔的系统在像素级清晰度和时间平滑度方面似乎胜过包括标准NeRF在内的众多替代方案，但它似乎没有提供NeRF-W可变的照明功能，或者在使用随机来源的照片来重现真实图像方面没有同样的关注点。 -世界地点。

谷歌的NeRF-W在本文中进行了详细讨论，该论文恰好在8月23日召开的2020年欧洲计算机视觉大会上发布。此处提供一段视频，展示其在柏林勃兰登堡门和罗马的许愿泉等地标上的表现。