摘要
近年来,随着自动驾驶领域的不断发展,传统的基于图像的2D目标检测算法已经无法满足该领域的需要,因此,基于激光雷达点云的三维目标检测算法受到了广泛关注,原因是激光点云很好地保留了三维场景中目标的几何信息、深度特征等,能够实现在三维场景中直接对目标进行检测。 针对图像中目标的形状和尺度多变的问题,对基于可变形卷积运算的图像特征提取方法展开了研究,实现了对图像目标特征的自适应提取。针对图像特征缺乏目标的各种尺度信息、空间分布信息、与目标检测任务不兼容的问题,本文对多尺度注意力、空间注意力、通道注意力展开了研究,实现了对图像特征的信息优化。针对点云特征缺乏场景语义信息、图像特征缺乏3D空间信息的问题,本文对体素空间中的跨模态特征融合方法展开了研究,实现了3D空间信息和场景语义信息的融合,点云特征和图像特征相互补充,提升了3D目标的检测结果。 针对融合特征中多尺度信息有限、相关注意力算法时间复杂度过高的问题,本文对基于通道注意力的多尺度特征生成算法、可分离自注意力算法、可变形交叉注意力算法展开了研究,实现了对融合特征中多尺度信息的生成,同时降低了相关注意力算法的时间复杂度。 本文对影响3D目标检测结果的相关技术进行了对比实验。在不同形式的跨模态特征融合对比实验中,nuScenes测试集上的平均准确率mAP达到了61.2%,NDS达到了68.4%,相较于其他跨模态特征融合方法,检测结果最好,验证了基于体素空间的跨模态特征融合方法的有效性。在不同图像特征提取方法的对比实验中,完全使用可变形卷积运算时,nuScenes测试集上的平均准确率达到了63.8%,NDS达到了69.2%,检测结果优于其他特征提取方法,验证了可变形卷积自适应提取多种尺度和形状的目标特征的有效性。在各种3D目标检测模型的性能对比实验中,本文提出的检测模型,在nuScenes测试集上的平均准确率mAP达到了70.1%,NDS达到了73.0%,优于其他目标检测模型的检测结果。在nuScenes测试集的图像中观察3D目标检测结果,实验结果进一步说明了本文提出的检测模型对场景昏暗、拥挤等情况具有鲁棒性。