面向自动驾驶的多模态多级融合三维目标检测

李尚杰¹

扫码查看

作者信息

1. 东南大学
折叠

摘要

在自动驾驶系统中，三维目标检测技术扮演着极为关键的角色，其检测结果将为智能车的决策规划和运动控制提供重要的参考依据。本文的研究目的是实现高质量、大范围的三维目标检测，从而为自动驾驶系统提供可靠的感知结果。考虑到高质量检测和大范围检测很难在同一个检测器中得到实现，本文将整体技术路线分为三个部分，形成多模态多级融合的三维目标检测框架。本文的三部分研究内容分别是：（1）为了实现高质量检测，本文提出一种利用多视角特征的多模态数据级融合三维目标检测器（Multi-View Multi-Modal 3D Detector，MVMM）。MVMM 采用点云染色的形式完成相机图像与激光雷达点云的数据级融合，并从距离视角、逐点视角以及鸟瞰视角提取染色点云的特征，实现高精度的、快速的三维目标检测过程。在KITTI数据集上的实验结果表明，MVMM在检测精度和运行速度上超过很多业内经典的三维目标检测网络。尤其在检测被严重遮挡或截断的目标时，MVMM具有非常明显的优势。（2）为了实现远距离检测，本文提出一种关注远距离目标的多模态数据级融合三维目标检测器（Long-Distance-Focused 3D Detector，LDFMM）。LDFMM 在相机图像上预测目标的关键点，并回归二维、三维参数，然后在激光雷达点云生成的稠密深度图上选取关键点处的深度作为参考，从而改善对远距离目标的检测效果。在KITTI数据集上的实验结果表明，LDFMM非常善于对远距离目标进行辨认和定位。根据自定义的反映各距离段检测精度的评价指标，LDFMM对60米以外的汽车目标的检测精度大幅超过MVMM。（3）为了融合前面两个检测器的三维检测结果，本文提出一种基于交叉监督的结果级融合网络（Cross-Supervised Fusion Network，CSFN）。CSFN 以两个三维目标检测器的结果作为输入，对两个检测器中重复检测的目标进行置信度重分配，增强高质量检测结果的置信度，抑制低质量检测结果的置信度，然后合并两部分结果并送入NMS后处理模块，得到最终的融合结果。在KITTI数据集上的实验结果表明，CSFN能够合理地融合MVMM和LDFMM的检测结果。在各类别、各距离段的检测精度上，CSFN均同时高于MVMM和LDFMM。

关键词

汽车自动驾驶系统/三维目标检测/多模态融合/多级融合

引用本文复制引用

授予学位

硕士

学科专业

机械工程;车辆工程

导师

殷国栋/耿可可

学位年度

2023

学位授予单位

东南大学

语种

中文

中图分类号

段落导航