摘要
深度估计是计算机视觉领域中重要的研究领域,在诸多实际场景中得到应用。双目立体匹配算法作为其中的关键,它是通过计算一对校正的立体图像之间每个像素的视差来建立空间像素的对应关系,进一步利用相似三角形原理将视差转换为深度信息。近些年来,由于卷积神经网络强大的特征提取能力,使得深度学习下的立体匹配算法相较于传统算法在精度以及效率上都有较明显的进步,但仍然会受到一些区域或场景的影响。在纹理较少或者重复纹理的区域,像素之间的色彩或者亮度特征变化不明显,就会导致立体匹配算法难以找到匹配点;在物体边缘以及遮挡像素这类局部区域中,由于像素点的灰度值等特征变化较大,或者左视图中边缘处的像素难以在右视图中找到匹配点,导致局部视差不连续现象;此外主流的立体匹配网络模型通常过于复杂并涉及大量的参数计算,因此需要分配大量的计算资源和时间。因此,本文主要针对立体匹配网络视差估计过程中存在的一些难点问题进行研究,主要工作如下: (1)针对立体匹配网络在面对不同场景下弱纹理或无纹理区域时,输出的视差图难以保持一致性的问题,提出一种多尺度特征聚合模块,通过聚合来自不同尺度的多层次局部细节和全局结构特征,以及丰富的上下文纹理信息,提升网络输出视差图的准确性和鲁棒性。此外,在立体匹配网络预测初始视差图之后引入边缘感知视差细化模块来减少在物体边缘和遮挡等局部像素处的误匹配,从而提升该局部区域内的视差表现,使得算法能够更好地应对复杂场景。最后,在SceneFlow、KITTI和Middlebury数据集的实验结果表明,嵌入多尺度特征聚合模块以及边缘感知视差细化模块后,实时立体匹配网络不仅能够快速地预测精细的视差图,同时具有良好的场景泛化性能。 (2)针对立体匹配网络对视差图进行上采样细化操作时执行错误的视差分配问题,提出一种将引导视差图上采样与细化过程相结合的方法,即引导视差细化模块。该方法能够有效恢复最终视差图中错误分配的视差值,避免网络预测的视差图出现边缘视差模糊和细小结构丢失等现象。此外,针对普通3D卷积的编码解码网络结构无法对全局几何和上下文纹理特征进行聚合的问题,提出一种引导局部成本聚合模块,该模块可以为网络在无纹理区域生成更精确的初始视差图。这些模块相互补充且效率高,共同形成一个准确的、轻量级的立体匹配网络。实验结果表明,该网络输出的视差图具备良好的准确性和鲁棒性,并且在SceneFlow数据集上的推理时间仅为0.03s。 (3)针对实时立体匹配网络在采用编码解码结构聚合匹配成本体时可能会带来局部细节信息上的损耗以及会放大原始成本体中噪声的问题,提出一种融合空间注意力和几何特征的编码与解码模块。改善成本体在编码解码时的损耗和失真情况,进而降低错误匹配的情况。另外,针对传统视差细化方式占用过多推理时间的问题,采用分层视差细化模块改善网络框架,从而进一步提升立体匹配网络的实时性能。在SceneFlow数据集以及KITTI2012和2015基准上的实验结果表明,网络在实现优异的视差精度的同时,展现快速的实时推理性能。