光电子·激光2022,Vol.33Issue(10) :1038-1046.DOI:10.16136/j.joel.2022.10.0035

基于高度有效驱动注意力与多层级特征融合的城市街景语义分割

Urban street view semantic segmentation based on height-driven effective attention and multi-stage feature fusion

赵迪 孙鹏 陈奕博 熊炜 刘粤 李利荣
光电子·激光2022,Vol.33Issue(10) :1038-1046.DOI:10.16136/j.joel.2022.10.0035

基于高度有效驱动注意力与多层级特征融合的城市街景语义分割

Urban street view semantic segmentation based on height-driven effective attention and multi-stage feature fusion

赵迪 1孙鹏 1陈奕博 1熊炜 2刘粤 1李利荣3
扫码查看

作者信息

  • 1. 湖北工业大学 电气与电子工程学院,湖北 武汉430068
  • 2. 湖北工业大学 电气与电子工程学院,湖北 武汉430068;襄阳湖北工业大学 产业研究院,湖北 襄阳441100;美国南卡罗来纳大学计算机科学与工程系,南卡罗来纳哥伦比亚29201
  • 3. 湖北工业大学 电气与电子工程学院,湖北 武汉430068;襄阳湖北工业大学 产业研究院,湖北 襄阳441100
  • 折叠

摘要

针对DeepLabv3+网络在进行城市街景图像分割任务时,没有充分利用到网络中多层级特征信息,导致分割结果存在大目标有孔洞、边缘目标分割不够精细等不足;并且考虑到城市街景数据具有天然的空间位置特殊性,本文提出在DeepLabv3+网络的基础上引入高度有效驱动注意力机制(height-driven efficient attention model,HEAM)与多层级特征融合模块(multi-stage feature fusion model,MFFM),将HEAM嵌入特征提取网络与空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)结构中,使其对目标关注更多垂直方向上的空间位置信息;MFFM通过融合多层特征图,在网络中形成多条融合支路依次连接到网络解码端,采用逐次上采样提高解码时像素上的连续性.将改进的网络通过Cam Vid城市街景数据集验证测试,实验结果表明,该网络能有效改善DeepLabv3+的不足,并且合理运用了数据集的位置先验性,增强了分割效果,在Cam Vid测试集上平均交并比(mean intersection over union,MIoU)达到了 68.2%.

关键词

DeepLabv3+/城市街景/注意力机制/语义分割/特征融合

引用本文复制引用

基金项目

国家自然科学基金(61571182)

国家自然科学基金(61601177)

国家留学基金(201808420418)

湖北省自然科学基金(2019CFB530)

湖北省科技厅重大专项(2019ZYYD020)

襄阳湖北工业大学产业研究院科研项目(XYYJ2022C05)

资助项目()

出版年

2022
光电子·激光
天津理工大学 中国光学学会

光电子·激光

CSCD北大核心
影响因子:1.437
ISSN:1005-0086
被引量3
参考文献量17
段落导航相关论文