摘要
视觉同步定位与地图构建(Visual Simultaneous Localization and Mapping),是指搭载相机的主体,在运动过程中利用视觉图像估计自身的位姿,同时建立起周围环境的模型。作为空间探测、智能机器人、自动驾驶、增强现实等应用场景中支撑定位功能的核心技术,视觉SLAM在过去的十数年里,得到了国内外研究者的广泛关注,并取得了令人瞩目的成果。 目前,传统的基于透视投影的针孔相机仍然是视觉SLAM的主流传感器。然而,针孔相机一般视场角比较有限,这会导致基于针孔相机的视觉SLAM在面临一些挑战性场景时,鲁棒性和精度不足。针对这一问题,本文提出研究基于全景环带成像的视觉SLAM。全景环带成像是一种可以在单次成像中获得周遭360?全景感知的成像技术,其核心部件是全景环带镜头(Panoramic Annular Lens,PAL)。PAL所拥有的超大视场,意味着相机可以同时捕获更丰富的视觉信息,使得位姿估计和地图构建有更加充足的数据来源。 本文首先对全景视觉SLAM中的数学模型进行定义和分析,包括PAL相机模型、全景SLAM的参数化方法、雅可比矩阵的形式等。此外,由于PAL的成像方式与常规的针孔相机有着显著不同,本文针对全景成像下的双视图几何关系进行了重新推导,包括基于全景相机模型的对极约束、位姿恢复和特征点三角化,为后续研究建立良好的基础。 在此基础上,本文提出了一种基于全景环带成像的稀疏直接法视觉里程计(PALVO)。基于全景相机投影关系,本文设计了基于本质矩阵的初始化模块,由粗到精的两步跟踪策略,以及沿极曲线的特征匹配搜索方法。实验表明,PALVO对于快速运动和动态场景具有很强的鲁棒性,同时达到了最先进的(state-of-the-art,SOTA)视觉里程计算法的精度水平,并且具有较高的运行速度。 接着,为了进一步消除运动物体的影响,本文提出了一种全景语义视觉里程计(PASVO)。该方法在PALVO之上,结合了基于深度学习的全景环带语义分割,并将语义信息深度耦合到视觉里程计的各个模块。在位姿估计阶段,通过语义信息赋权,来减小运动物体等对位姿优化的干扰;在地图构建阶段,利用语义信息来引导关键点选择和极曲线搜索。相比于PALVO,PASVO借助语义信息,进一步提高了动态环境下的鲁棒性,并且大幅提升了精度。同时,语义分割的引入,使得在几何信息感知之上,加入了对环境的更高层次理解。 最后,对于PALVO中所存在的累积误差和尺度漂移,本文提出了全景环带视觉SLAM(PA-SLAM),将基于稀疏直接法的PALVO扩展到具有闭环检测和全局优化的视觉SLAM系统。为了在保证计算效率的同时实现可靠的闭环检测,提出了关键点混合选择策略。此外,得益于PAL的360°环视成像特性,PA-SLAM能够处理不同行进方向的闭环,这与基于前视针孔相机的经典视觉SLAM算法仅可处理同向的闭环相比,具有明显的优势。实验表明,PA-SLAM显著降低了PALVO的累积误差和尺度漂移,达到了SOTA的视觉SLAM的精度水平,并且保持了原有的鲁棒性和高效率。