沉浸式感受飞鸟的快乐:从一张照片天生3D航拍视频

今天,我们带你看一组「航拍」的自然景观:雄伟的山脉:波澜壮阔的海景:怎么样,是不是体会到飞鸟的快乐了?但你能想象吗,这些景观视频全部都是计算机分解的!为了构建沉浸式的虚拟现实体现,近几年人们开始思考计

今天,我们带你看一组「航拍」的自然景观:雄伟的山脉:

图片

波澜壮阔的海景:

图片

怎么样,是不是体会到飞鸟的快乐了?但你能想象吗,这些景观视频全部都是计算机分解的!为了构建沉浸式的虚拟现实体现,近几年人们开始思考计算机如何分解细节丰富的三维视觉感受。来自谷歌的研讨团队近日做了一项名为「Infinite Nature」的研讨工作,该研讨表明计算机可以通过观看自然视频和照片来进修天生丰富的 3D 视觉感受。新模型 InfiniteNature-Zero 甚至可以仅在静态照片上训练,以单张图象作为「种子」,天生高分辨率、高质量的景观视频,这是前所未有的突破性能力。图片项目主页:https://infinite-nature-zero.github.io/谷歌将主要研讨问题称为「永久型视图天生(perpetual view generation)」,即给定场景的单个输出视图,按照给定的相机途径,分解照片级真正的输出视图集。这一任务非常具有挑战性,因为系统必须为输出图象上的大型地标(例如山脉)的另一侧天生新内容,并以高逼真度和高分辨率衬着新内容。下图是利用 InfiniteNature-Zero 天生的飞行效果示例:仅输出单个自然场景图象,模型运行时就能天生「飞入」该场景的新内容,感受非常真正。图片该研讨首先收集了一组沿海岸线飞行的无人机拍摄的在线视频,最初的想法是进修分解类似于这些真正视频的新飞行视频。这组收集到的在线视频称为 ACID 数据集(Aerial Coastline Imagery Dataset)。研讨者发现,为了学会分解动态响应任何 3D 相机途径的场景,不能简单地将这些视频视为像素的原始集合——还必须计算它们底层的 3D 几何图形,包括每帧的相机位置。给定一个肇始视图,该研讨首先要利用单图象深度预测步骤计算深度图,然后再利用该深度图将图象向前衬着到新的相机视点,从新视点天生新图象和深度图。该研讨构建了一个神经图象细化网络,采用低质量的中间图象(缺失部分像素),输出一个完整的、高质量的图象和相应的深度图,并将新的分解图象作为输出图象多次反复上述步骤。由于该研讨同时优化了图象和深度图,所以这个过程可以根据需要反复多次——当相机进一步进入场景时,系统会自动进修天生新的风景,包括山脉、岛屿和海洋等。

图片

该研讨利用利用 ACID 数据集来训练这种衬着 – 优化 – 反复的分解步骤。具体来说,该研讨从数据集中采样视频,再从视频中采样一帧,然后利用上述步骤衬着几个新的视图,沿着与地面实况视频相同的摄像机轨迹移动到场景中,并将这些衬着帧与相应的地面实况视频帧进行比较,以得出训练信号。其中还包括一个对抗性设置,它试图将分解帧与真正图象区分开来,旨在让天生的图象看起来更真正。Infinite Nature 步骤可以分解任何相机轨迹对应的视图。具体而言,整个研讨中最核心的问题是:如何从静态图象天生场景视频?为了解决这个问题,该研讨提出一个关键的思路:如果我们拍摄一张图象并衬着一个循环的相机途径,即最后一张图象与第一张图象来自相同的视点,那么沿着这条途径最后分解的图象应该与输出图象相同。这种循环一致性提供了一个训练约束,帮助模型在视图天生的每个步骤中进修填充缺失的区域并提高图象分辨率。然而,利用相机周期进行训练不足以天生长而稳定的视图序列,因此该研讨在原始工作中包含了一种对抗策略,考虑长的、非循环的相机途径,如下图所示。图片如果从肇始帧开始衬着 T 帧,该研讨会优化上述「衬着 – 优化 – 反复」模型,使得判别器网络无法分辨哪个是肇始帧,哪个是最终分解帧。最后,该研讨还添加了一个经过训练的组件,以天生高质量、高真正感的分解图象。与之前的视频分解步骤相比,Infinite Nature 步骤的天生结果在内容的质量和多样性方面显著提高。此外,这种步骤还允许用户交互控制摄像机,并天生更长的相机途径。原文链接:https://ai.googleblog.com/2022/11/infinite-nature-generating-3d.html

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/26037

(0)
上一篇 2022年11月9日 下午3:03
下一篇 2022年11月10日 上午11:50

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注