基于单目视觉、激光雷达及其融合的三维目标检测

唐鑫¹

扫码查看

作者信息

1. 同济大学
折叠

摘要

环境感知是自动驾驶的基础，三维目标检测是其中的关键任务，通过三维目标检测所获得的目标在环境中的位置和姿态信息，对于自动驾驶车辆的决策和控制具有重要意义。根据激光雷达和机器视觉各自的应用范围，结合激光雷达距离测量精度高和图像信息丰富的特点，本文研究了基于单目视觉、激光雷达以及两者融合的三维目标检测算法。主要工作如下： (1)开发了基于单目视觉的三维目标检测算法：使用改进VGG网络和特征金字塔网络提取了图像卷积特征图；对KITTI目标检测数据集上训练样本的真值进行聚类，确定锚盒尺寸，并生成了锚盒网格；将锚盒投影到图像特征图上，生成候选区域；检测网络以候选区域和图像特征图为输入，最终估计出目标的类别和3D包围盒。在训练过程中，为了避免过拟合问题，使用水平翻转和PCA抖动方法进行了数据增广。以三维检测及鸟瞰图检测平均准确率作为评价指标，对检测结果进行了评价，并分析了存在的问题。结果表明，特征金字塔网络的特征提取效果更好，但单纯基于单目图像难以有效定位目标。 (2)开发了基于激光雷达的三维目标检测算法：实现了针对自动驾驶场景的点云端到端学习网络VoxelNet；针对单级目标检测网络中存在的样本不均衡问题，使用FocalLoss函数改进了VoxelNet网络。结果表明，改进VoxelNet网络有效提高了检测准确率，但仍面临因远距离点云稀疏和缺乏纹理信息导致的误检和漏检问题。 (3)开发了基于激光雷达与单目视觉融合的三维目标检测算法：使用特征金字塔网络提取图像特征图；使用VoxelNet网络获得点云特征图并提取3D候选区域；基于候选区域提取感兴趣区域的点云和图像特征，使用前融合、后融合、深度融合三种策略进行图像和点云的特征融合；基于融合后的特征估计出目标类别和包围盒。在模型训练过程中，针对点云和图像数据联合数据增广困难的问题，使用预训练模型，提高了泛化能力。结果表明，前融合策略效果最佳，将三维检测平均准确率在改进VoxelNet方法的基础上提高了3.71个百分点，验证了融合方法的有效性。

关键词

自动驾驶/单目视觉/激光雷达/三维目标检测

引用本文复制引用

授予学位

硕士

学科专业

车辆工程

导师

张立军

学位年度

2019

学位授予单位

同济大学

语种

中文

中图分类号

段落导航