摘要
三维目标检测在汽车自动驾驶、机器人环境感知等应用中占有重要的地位,主要研究如何有效地感知三维环境信息,对感兴趣目标进行准确分类和定位。相比于二维目标检测,三维检测由于维度增加更具有挑战性。一方面,各类传感器数据单独应用于三维场景理解时都有不足之处,例如激光雷达获取的点云稀疏且不规则;相机获取的图像缺乏空间深度信息。另一方面,物体在空间中随机分布,当目标距离远或部分被遮挡时,容易出现漏检情况。针对以上问题,本文基于多传感器信息融合能够优势互补的特点,重点研究了如何提高三维目标检测的准确性、鲁棒性和实时性,从点云和图像特征的提取与融合两个方面对已有工作进行了改进和优化。本文的主要工作如下: (1)针对传统特征金字塔结构深层语义信息前向传递性差的问题,设计了一种基于跳跃特征金字塔的全分辨率特征提取器。该特征提取器以VGG16为骨干网络构建特征金字塔,通过跳跃连接融合多层高语义级特征图的语义信息和低层特征图的细节信息,为后续检测任务提供更有效的全分辨率特征图。实验表明,使用改进后的特征提取器能够提升算法的整体检测能力。 (2)针对目前已有的融合方法忽略了点云量化过程造成信息损失,以及融合过程粗糙导致检测鲁棒性差的问题,提出了一种结合自适应融合策略的多模态特征融合方法。该方法首先使用PointNet网络补充原始点云局部特征,然后利用自适应融合方法动态调整鸟瞰图、RGB图像以及点云区域特征参与检测任务的权重,得到鲁棒性更强的区域融合特征,最后再使用特征拼接方法融入候选框的方位特征。实验表明,该融合方法能够显著提高算法的检测精度,在KITTI验证集车辆类别上三种难度集合的????3??分别提升了2.17%、2.18%和7.56%。 (3)基于上述改进方案,本文实现了一种基于点云和图像融合的两阶段检测方法以及一种快速单阶段三维目标检测方法。两阶段融合检测方法主要包括基于跳跃特征金字塔的三维区域提议网络和基于多模态特征融合的三维目标检测两部分。快速单阶段检测方法将目标检测转化为回归问题,采用focalloss解决密集锚框带来的类别不平衡问题,有效地减少了模型参数,在略微牺牲检测精度的同时检测速度提升了约30%。本文在KITTI和nuScenes数据集上进行了多组实验,实验结果表明本文提出的改进方法能够有效提高三维目标检测的准确性和鲁棒性,并且本文的检测方法不仅对于远距离目标以及部分被遮挡目标检测具有一定的优势,对于不同场景光照条件的变化也具有一定的适应性。