摘要
城市街景语义分割对自动驾驶车辆理解周围环境,保障其高效安全行驶具有重要意义。针对现有城市街景语义分割算法模型运算量大、实时性差、分割精度不高等问题,本文以城市街景为研究对象,采用深度学习技术,从数据集构建、单目标语义分割模型设计和多目标语义分割模型设计三方面展开研究,主要研究内容如下: (1)城市街景数据集的构建与分析 针对城市街景数据集中样本量较少的问题,采用网络资源与自行拍摄相结合的方式构建城市街景数据集。由于数据集中训练样本不足会导致模型过拟合、分割精度低等问题,采用传统方法中的平移、旋转和镜像变换对样本进行扩增,同时采用DCGAN方法增加训练样本,DCGAN将有监督学习的CNN与无监督学习的GAN结合,解决了GAN网络稳定性不足的缺点。最后通过实验证明了所生成的图像可以很好的应用到城市街景语义分割中。 (2)改进DeepLabv3+的单目标语义分割网络设计 针对城市街景图像语义分割算法存在运算量大、实时性较差等问题,改进了DeepLabv3+单目标语义分割算法。首先使用轻量型网络MobileNetv2作为特征提取的骨干网络,提升模型的运行速度;其次在空洞空间金字塔池化模块中增加卷积支路并调整空洞率,提高模型对大小不同目标的分割能力,同时应用深度可分离卷积,降低模块参数量;之后引入特征融合支路,使得骨干网络提取的低层特征信息得到充分利用;最后在PASCALVOC2012数据集上进行实验,平均交并比为90.20%,平均像素精度为94.87%,证明了改进算法对城市街景语义分割的有效性。 (3)融合双注意力机制的多目标语义分割网络设计 针对多目标城市街景图像中样本不均衡、小目标分割精度不高等问题,提出了融合双注意力机制的多目标语义分割算法。首先在DeepLabv3+编码区的ASPP模块输出端引入位置注意力模块,在解码区浅层特征的输出端添加通道注意力机制,双注意力机制的融合使得多目标城市街景图像中的小目标分割精度得到提升;其次将多目标语义分割网络中的损失函数改进为交叉熵损失函数与DiceLoss之和,有效解决正负样本不均衡的问题;最后在数据增强的CamVid数据集上进行仿真验证,实验结果表明,本文所提出的融合双注意力机制的多目标语义分割算法的平均交并比达到了81.28%,平均像素精度达到了87.85%,证明了本文所提算法对多目标城市街景图像具有较好的分割效果。