基于分级检索的单目相机位姿估计方法研究

赵炜强¹

扫码查看

作者信息

1. 哈尔滨工业大学
折叠

摘要

随着数据处理能力的发展和传感器性能的提升，通过视觉方式提供基于位置的服务成为可能。当结合视觉传感器与其它传感器共同完成场景的探索之后，可以精确恢复场景结构信息。当再次进入已知场景时，仅需低成本的单目相机作为传感器并结合场景结构信息即可提供高精度的位置服务。相比于基于无线信号、惯导设备等定位系统，基于视觉传感器的定位系统在保证位姿估计精度的同时还能提供更多的视觉语义信息用于导航、避障、兴趣目标检测等进一步的服务。因此视觉定位技术也在近几年来受到了广泛关注。综合考虑可扩展性、可靠性、有效性这些指标，目前性能最好的是基于分级检索的方法。然而该方法需要提取图像的全局特征和局部2D点特征分别用于图像位置识别和位姿估计，在全局和局部特征提取上占用的大量时间成为实时定位的制约。此外，基于图像检索的方法受到检索结果的影响较大，检索时不能正确召回定位区域3D点，则位姿估计失败。通常的做法是增大检索数量，对检索结果3D点取并以保证真解的存在性，代价是增大了检索阶段和位姿估计阶段计算复杂度。尽管如此，当查询图像的视角变化较大或者存在局部遮挡时，仍然难以检索出查询图像的共视图像，从而导致用于位姿估计的3D点数量较少，降低了位姿估计精度。本文针对上述问题进行了研究，并取得了如下成果：（1）针对基于分级检索的位姿估计系统特征提取复杂度高、实时性差的问题，提出了一种低复杂度的全局特征计算方法，该方法将局部特征建模为高斯混合分布，以Wassertain距离作为特征相似性度量，在特征各维度独立性假设下构造各高斯混合成分特征。通过理论分析证明，NetVLAD方法与本文所提方法的简化情况AttnVLAD在运算上等价，但是本文方法对高维特征时间复杂度更低。此外，本文方法截取EfficientB3作为特征提取网络，并以交叉注意力机制将AttnVLAD实现，仿真结果表明，本文所提方法加快了特征提取速度并提高了位置识别召回精度。（2）针对图像视角变化较大、存在局部遮挡导致位姿估计精度下降的问题，提出了一种基于虚拟视点的位姿优化方法，该方法基于虚拟视点3D点的共视性和空间一致性对数据库图像进一步召回，从而减轻视角和遮挡导致的初始匹配中2D#xFFFE;3D匹配点数量不足、分布过于集中等对位姿估计的影响，仿真结果表明，本文所提方法以位姿估计时间为代价，有效地提高了位姿估计精度。

关键词

分级定位/特征压缩/位姿估计

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

叶亮

学位年度

2023

学位授予单位

哈尔滨工业大学

语种

中文

中图分类号

段落导航