摘要
作为机器人和计算机视觉领域的重要任务之一,视觉里程计为导航、定位等各种应用提供了巨大的帮助。传统的基于深度学习的视觉里程计任务直接依赖于连续图像的输入。然而,对于里程计网络来说,获取图像提供的对极几何信息是非常复杂的。由于6自由度(DoF)位姿变换发生在3D空间中,从3D点云中学习位姿更加的直接,因此本文将伪激光雷达的概念引入到里程计任务中。伪激光雷达点云是通过将图像生成的深度图反向投影到3D空间中形成的,其本质是模仿激光雷达点云的形式。本文对基于伪激光雷达点云的视觉里程计进行了研究,主要包含以下内容: 首先,针对传统视觉里程计无法直接从3D坐标中学习空间6-DoF位姿的问题,将伪激光雷达的概念引入到里程计任务中,建立了基于伪激光雷达算法的视觉里程计框架。由立体匹配网络生成的伪激光雷达点云可以获得显式的3D坐标,因此伪激光雷达点云提供的3D结构信息比图像更直接。通过引入伪激光雷达来学习图像中的3D几何信息,视觉里程计网络实现了更高精度的位姿回归。 其次,由于算力的限制,提出的基于伪激光雷达点云的里程计算法需要从点云中采样8192个点来作为输入。这样的方式使得伪激光雷达点云中丰富的点信息没有得到充分利用,针对这一问题,本文采用了基于投影感知的高效伪激光雷达里程计算法,在保留伪激光雷达点云中的3D结构信息的同时,实现了高效的点云学习,提升了网络的精度。 最后,基于投影感知的高效伪激光雷达里程计充分利用图像中的3D几何信息,而图像中的纹理、颜色等信息则被忽略,针对这一问题,提出了仅基于图像的2D-3D融合模块。利用图像特征对伪激光雷达点特征进行增强,通过多模态融合的方式实现了网络对环境的更深层理解,最终实现了网络性能的进一步提升。 综上所述,本文提出的算法在视觉里程计任务上取得了较好的效果,在公开数据集KITTI上的实验也验证了算法的有效性。