摘要
单目深度估计是计算机视觉中一项基本且重要的任务,该技术旨在通过单张彩色图像推断出场景的深度信息,在自动驾驶、导航、虚拟现实等多个领域中有着广泛的应用。然而,单目深度估计是个病态问题,传统方法并不能取得很好的性能。随着深度学习的飞速发展,基于学习的单目深度估计得到了广泛关注,并在性能上相较传统方法取得了巨大的提升。本文在前人研究的基础上,针对现有工作中的不足,从彩色图像中的冗余信息、监督信号中存在错误值以及如何有效捕获全局特征这三个方面入手,对基于深度学习的单目深度估计进行了探讨与研究。本文的主要工作可以总结为以下三个部分: (1)考虑到彩色图像中存在着对深度预测无用的冗余信息,提出一种基于离散表示的网络。该算法引入向量量化,将编码器的连续输出映射到可学习的离散隐空间中,达到去除冗余信息且保存重要特征的效果。同时,量化模块中的层次化结构能够有效捕获局部细节与全局信息。此外,本算法还利用融合模块来整合离散表征中的有用信息,通过注意力机制,突出重要特征而抑制冗余特征。NYUDepthV2数据集上的实验结果表明,该算法预测的深度图比其他方法的结果具有更高的性能指标与视觉效果。 (2)针对监督信号中存在错误像素值的问题,提出在网络中引入不确定性估计来减轻该问题对模型性能的影响。对不确定性损失中的感知不确定性计算方法进行修正,使其更适用于单目深度估计。通过在公开室内数据集上的实验,本文证明了该算法能有效缓解错误监督标签的影响,带来一定的模型性能提升。 (3)为更有效的提取到全局信息,提出两种基于VisionTransformer的查询系统。查询系统应用Transformer解码器中的交叉注意力模块,加强两个输入间高度相关的特征,并抑制无关特征。为削减Transformer的计算量,该方法将特征图分成多个空间分辨率更低的区块,并在这些区块中进行权重共享,最终设计出一种轻量化的动态池化模块。并在实验部分,将动态池化模块与常用的三种下采样方法进行对比,综合地探讨了它们的优劣。在NYUDepthV2和SUNRGB-D两种室内数据集上的定性和定量结果,均证明了该算法的有效性。