摘要
双目立体匹配技术在计算机视觉、计算机图形学等领域的研究重点,涉及到许多领域,如三维重建、机器人导航、自动驾驶、无人驾驶等。视差估计是从一对经过矫正的双目图像中估计视差的过程,而这个问题是一个不适定问题,因为同一物体在不同的图像中可能呈现出不同的外观。当前,基于深度学习的算法在立体匹配领域取得了较大的成功。但是,基于深度学习的方法仍然存在着一些问题,例如模型运行速度较慢、模型仍受到细长结构、弱纹理区域和复杂场景等因素的影响等问题。这些问题限制了深度学习方法在实际应用中的推广和应用。此外,在工业级应用中,除了关注匹配精度外,还需要考虑视差估计的速度问题。因此,开发实时的、精度高的双目立体匹配算法具有重要意义。 1.在本文中,我们提出了CMNet,一个轻量级的立体匹配架构,用于改善资源有限的设备上的速度和准确性之间的权衡。我们提出了一个由Patchembedding层和ConvMLP-mixer结构组成的新型特征提取网络。Patchembedding层增强了感受野并使特征向量紧凑。ConvMLP-mixer混合通道维度的空间信息,通过对多尺度通道信息的融合提高了差异图的准确性。绝对差异量与分组相关量相连接,为成本聚合阶段提供多维匹配成本信息。在KITTI2012和KITTI2015立体匹配数据集上进行评估,CMNet在NVIDIAGTX2080tiGPU上的推理时间为8.7毫秒。在实现超越实时的快速预测的同时,D1-all的结果在KITTI2012上为3.41%,在KITTI2015上为3.84%,在速度和准确性之间取得了最先进的结果。此外,CMNet的轻量级架构使其在NvidiaJetsonNano上的快速推理时间为40.7毫秒,以实现边缘设备上的实时应用。 2.提出了基于多尺度3D-CNN的实时双目立体匹配算法。该算法实现了快速的推理速度的同时,提高了结果的匹配精度,在精度和速度间达到了平衡。首先,该模型在网络结构设计和特征提取方面进行了改进,使用视觉注意力网络(Van)作为特征提取模块,该方法能够考虑了本地上下文信息、大接收场、线性复杂性和动态过程。此外,视觉注意力网络方法中的大内核注意力机制(LKA)不仅实现了空间维度的适应性,还实现了通道维度的适应性。其次,使用多尺度方式构建代价立方(CostVolume),并在多个尺度上使用3D卷积聚合特征,有效地提高了匹配精度。本文使用的视觉注意力网络(Van)和提出的多尺度3D-卷积神经网络模块能够显著提升在复杂场景下立体匹配的精度,使得模型在数据集上的KITTI2012和KITTI2015数据集上D1-all分别降低到2.80%和3.02%,并且在一块NVIDIAGTX2080tiGPU上速度也能达到12.6毫秒,在精度和速度之间保持了很好的的平衡。