单运动镜头估算运动物体深度,Google 挑战新难题

2020-06-20 22:38:49编辑:
单运动镜头估算运动物体深度,Google 挑战新难题

人类视觉系统有个我们习以为然但极其强大的功能,就是可从平面图像推出其在三度空间的样子。即便是多个物体同时移动的複杂环境,人类也能合理推测物体的几何形状、深度关係。

然而类似的事对电脑视觉来说有相当大的挑战性,摄影镜头和被拍摄物品都静止的情况下,电脑尚不能稳定解决所有情况,若都是自由运动的情况就更难以得到正确的结果。原因是,传统的三维重建算法依赖三角计算,需要假设同一物体可从至少两个不同角度同时观察,透过拍摄的图像之间的区别(视差)解算三维模型。想满足这前提,要幺需要一个多镜头阵列,要幺保持被拍摄物体完全静止不动,允许单个摄影镜头移动观察。那幺,只有单个摄影镜头的情况下,深度计算要幺忽略移动物体,要幺无法算出正确结果。

Google 的新研究《Learning the Depths of Moving People by Watching Frozen People》,提出一种新的基于深度学习的方法解决单个摄影镜头+摄影镜头和物体都在移动时的深度预测,在任意影片都有很好的效果。这个方法用人类姿态、常见物体形态的先验学习,替代直接三角计算图像。

值得指出的是,用机器学习的方法「学习」三维重建/深度预测并不是什幺新鲜事,不过 Google 这项研究专门针对摄影镜头和被摄物体都在移动的场景,且重点关注的被摄物体是人物,毕竟人物的深度估计可在 AR、三维影片特效都派得上用场。

单运动镜头估算运动物体深度,Google 挑战新难题单运动镜头估算运动物体深度,Google 挑战新难题巧妙寻找训练数据

正如大多数此类方法,Google 选择有监督方法训练模型,就需要找到移动的摄影镜头拍摄的自然场景影片,同时还带有準确的深度图。找到大量这类影片并不容易。如果选择生成影片的方法,需要非常逼真的建模,且在多种场景、光照、複杂度的组合下呈现自然的人物动作,不仅有很高难度,且想泛化到真实场景仍有一定难度。另一方法是在真实世界拍摄这类影片,需要摄影镜头支援 RGBD (彩色图像+深度图),微软 Kinect 就是常用的低价方案;但问题是这类摄影镜头通常只适用室内,且在三维重建过程中也常有各自问题,难以得到理想的精确度。

机智的研究人员想到利用 YouTube 影片。YouTube 的大量影片中,各种题材、场景、拍摄手法都有,有一类影片对这任务极其有帮助:影片中的人假装时间静止,保持位置和姿态不动,然后一个摄影机在移动,拍下整个场景。由于整个场景的物体都是固定的,就可用传统的基于三角计算的方法,精确还原整个三维场景,也就得到高精準度的深度图。Google 研究人员蒐集了大概 2,000 支影片,包括不同数量的人们在各种真实场景摆出各种姿势。

单运动镜头估算运动物体深度,Google 挑战新难题单运动镜头估算运动物体深度,Google 挑战新难题为正在移动的人估算距离

上面说到的「时间静止」影片提供移动的摄影镜头+静止的物体的训练数据,但是研究的最终目标是解决摄影镜头和物体同时运动的情况。为了应付差别,Google 研究人员需要把网路输入结构化。

一种简单的解决方案是为影片每一帧分别推理出深度图(也就是说模型输入是单帧画面)。虽然用「时间静止」影片训练的模型,可在单帧图像的深度预测取得顶尖表现,但 Google 研究人员认为,还可以利用多帧资讯提升模型的表现。比如,对同样的固定物体,摄影镜头的移动形成不同视角的两帧画面,就可以为深度估计提供非常有用的线索(视差)。为了利用这种资讯,研究人员计算每个输入帧和另一帧之间的二维光流(两帧之间的像素位移)。光流同时取决于场景的深度和摄影镜头的相对位置,不过由于摄影镜头的位置未知,就可从光流场中消去两者间的依赖,进而得到初始深度图。这深度图只对静态部分有效,为了还能处理移动的人,研究人员增加人物分割网路,把人从初始深度图遮蔽掉。那幺,网路输入就由这三部分组成:RGB 彩色图像、人物遮蔽,以及透过视差计算的带有遮蔽的深度图。

单运动镜头估算运动物体深度,Google 挑战新难题

这类输入,网路的任务就是补上有人区域的深度图,以及完善整幅画面的深度图。由于人体有较固定的形状和尺寸,网路可容易地从训练数据学到这些先验,并给予较準确的深度估计。训练完毕后,模型就可处理摄影镜头和人物动作都任意变化的自然拍摄影片了。

与目前其他优秀方法的对比如下图。

单运动镜头估算运动物体深度,Google 挑战新难题透过深度图实现三维视频效果

得到準确的深度图之后,简单常见的使用方法就是实现景深和虚焦效果,如下图。

单运动镜头估算运动物体深度,Google 挑战新难题

其他的用法还比如可用原图结合深度图进行小幅视角变换,合成「三维画面」,如下图;甚至在画面增加有準确深度和尺寸的三维元素也不难。

单运动镜头估算运动物体深度,Google 挑战新难题
上一篇: 下一篇:

相关阅读