基于多尺度多维度融合的实时立体匹配算法研究

刘成¹

扫码查看

作者信息

1. 广州大学
折叠

摘要

双目立体匹配技术在计算机视觉、计算机图形学等领域的研究重点，涉及到许多领域，如三维重建、机器人导航、自动驾驶、无人驾驶等。视差估计是从一对经过矫正的双目图像中估计视差的过程，而这个问题是一个不适定问题，因为同一物体在不同的图像中可能呈现出不同的外观。当前，基于深度学习的算法在立体匹配领域取得了较大的成功。但是，基于深度学习的方法仍然存在着一些问题，例如模型运行速度较慢、模型仍受到细长结构、弱纹理区域和复杂场景等因素的影响等问题。这些问题限制了深度学习方法在实际应用中的推广和应用。此外，在工业级应用中，除了关注匹配精度外，还需要考虑视差估计的速度问题。因此，开发实时的、精度高的双目立体匹配算法具有重要意义。 1.在本文中，我们提出了CMNet，一个轻量级的立体匹配架构，用于改善资源有限的设备上的速度和准确性之间的权衡。我们提出了一个由Patchembedding层和ConvMLP-mixer结构组成的新型特征提取网络。Patchembedding层增强了感受野并使特征向量紧凑。ConvMLP-mixer混合通道维度的空间信息，通过对多尺度通道信息的融合提高了差异图的准确性。绝对差异量与分组相关量相连接，为成本聚合阶段提供多维匹配成本信息。在KITTI2012和KITTI2015立体匹配数据集上进行评估，CMNet在NVIDIAGTX2080tiGPU上的推理时间为8.7毫秒。在实现超越实时的快速预测的同时，D1-all的结果在KITTI2012上为3.41%，在KITTI2015上为3.84%，在速度和准确性之间取得了最先进的结果。此外，CMNet的轻量级架构使其在NvidiaJetsonNano上的快速推理时间为40.7毫秒，以实现边缘设备上的实时应用。 2.提出了基于多尺度3D-CNN的实时双目立体匹配算法。该算法实现了快速的推理速度的同时，提高了结果的匹配精度，在精度和速度间达到了平衡。首先，该模型在网络结构设计和特征提取方面进行了改进，使用视觉注意力网络（Van）作为特征提取模块，该方法能够考虑了本地上下文信息、大接收场、线性复杂性和动态过程。此外，视觉注意力网络方法中的大内核注意力机制（LKA）不仅实现了空间维度的适应性，还实现了通道维度的适应性。其次，使用多尺度方式构建代价立方（CostVolume），并在多个尺度上使用3D卷积聚合特征，有效地提高了匹配精度。本文使用的视觉注意力网络（Van）和提出的多尺度3D-卷积神经网络模块能够显著提升在复杂场景下立体匹配的精度，使得模型在数据集上的KITTI2012和KITTI2015数据集上D1-all分别降低到2.80%和3.02%，并且在一块NVIDIAGTX2080tiGPU上速度也能达到12.6毫秒，在精度和速度之间保持了很好的的平衡。

关键词

双目立体匹配/ConvMLP-mixer/多维度融合/深度学习

引用本文复制引用

授予学位

硕士

学科专业

新一代电子信息技术(含量子技术等)

导师

李俊

学位年度

2023

学位授予单位

广州大学

语种

中文

中图分类号

段落导航