电子与信息学报2024,Vol.46Issue(7) :2918-2931.DOI:10.11999/JEIT230719

集成多种上下文与混合交互的显著性目标检测

Integrating Multiple Context and Hybrid Interaction for Salient Object Detection

夏晨星 陈欣雨 孙延光 葛斌 方贤进 高修菊 张艳
电子与信息学报2024,Vol.46Issue(7) :2918-2931.DOI:10.11999/JEIT230719

集成多种上下文与混合交互的显著性目标检测

Integrating Multiple Context and Hybrid Interaction for Salient Object Detection

夏晨星 1陈欣雨 2孙延光 3葛斌 2方贤进 4高修菊 5张艳6
扫码查看

作者信息

  • 1. 安徽理工大学计算机科学与工程学院 淮南 232001;安徽璞华大数据技术有限公司 淮南 230031;合肥综合性国家科学中心能源研究院 合肥 230601
  • 2. 安徽理工大学计算机科学与工程学院 淮南 232001
  • 3. 南京理工大学计算机科学与工程学院 南京 210094
  • 4. 安徽理工大学计算机科学与工程学院 淮南 232001;合肥综合性国家科学中心人工智能研究院 合肥 230601
  • 5. 安徽理工大学电气与信息工程学院 淮南 232001
  • 6. 安徽大学电子信息工程学院 合肥 230601
  • 折叠

摘要

显著性目标检测目的是识别和分割图像中的视觉显著性目标,它是计算机视觉任务及其相关领域的重要研究内容之一.当下基于全卷积网络(FCNs)的显著性目标检测方法已经取得了不错的性能,然而现实场景中的显著性目标类型多变且尺寸不固定,这使得准确检测并完整分割出显著性目标仍然是一个巨大的挑战.为此,该文提出集成多种上下文和混合交互的显著性目标检测方法,通过利用密集上下文信息探索模块和多源特征混合交互模块来高效预测显著性目标.密集上下文信息探索模块采用空洞卷积、不对称卷积和密集引导连接渐进地捕获具有强关联性的多尺度和多感受野上下文信息,通过集成这些信息来增强每个初始多层级特征的表达能力.多源特征混合交互模块包含多种特征聚合操作,可以自适应交互来自多层级特征中的互补性信息,以生成用于准确预测显著性图的高质量特征表示.此方法在5个公共数据集上进行了性能测试,实验结果表明,该文方法在不同的评估指标下与19种基于深度学习的显著性目标检测方法相比取得优越的预测性能.

Abstract

Salient Object Detection(SOD)aims to recognize and segment visual salient objects in images,which is one of the important research contents in computer vision tasks and related fields.Existing Fully Convolutional Networks(FCNs)-based SOD methods have achieved good performance.However,the types and sizes of salient objects are variable and unfixed in real-world scenes,which makes it still a huge challenge to detect and segment salient objects accurately and completely.For that,in this paper,a novel integrating multiple context and hybrid interaction for SOD task is proposed to efficiently predict salient objects by collaborating Dense Context Information Exploration(DCIE)module and Multi-source Feature Hybrid Interaction(MFHI)module.The DCIE module uses dilated convolution,asymmetric convolution and dense guided connection to progressively capture the strongly correlated multi-scale and multi-receptive field context information,and enhances the expression ability of each initial input feature by aggregating context information.The MFHI module contains diverse feature aggregation operations,which can adaptively interact with complementary information from multi-level features to generate high-quality feature representations for accurately predicting saliency maps.The performance of the proposed method is tested on five public datasets.The performance of the proposed method is tested on five public datasets.Experimental results demonstrate that our method achieves superior prediction performance compared with 19 state-of-the-art SOD methods under different evaluation metrics.

关键词

计算机视觉/显著性目标检测/全卷积网络/上下文信息

Key words

Computer vision/Salient Object Detection(SOD)/Fully Convolutional Networks(FCNs)/Context information

引用本文复制引用

基金项目

国家自然科学基金(62102003)

安徽省自然科学基金(2108085QF258)

安徽省博士后基金(2022B623)

淮南市科技计划项目(2023A316)

安徽高校协同创新项目(GXXT-2021-006)

安徽高校协同创新项目(GXXT-2022-038)

安徽理工大学青年科学研究基金一般项目(xjyb2020-04)

中央引导地方科技发展专项(202107d06020001)

出版年

2024
电子与信息学报
中国科学院电子学研究所 国家自然科学基金委员会信息科学部

电子与信息学报

CSTPCDCSCD北大核心
影响因子:1.302
ISSN:1009-5896
参考文献量5
段落导航相关论文