首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    《中国图象图形学报》图像/视频语义分割专栏简介

    王井东桑农程明明张兆翔...
    1117-1118页

    深度学习实时语义分割综述

    高常鑫徐正泽吴东岳余昌黔...
    1119-1145页
    查看更多>>摘要:语义分割是计算机视觉领域的一项像素级别的感知任务,目的是为图像中的每个像素分配相应类别标签,具有广泛应用。许多语义分割网络结构复杂,计算量和参数量较大,在对高分辨率图像进行像素层次的理解时具有较大的延迟,这极大限制了其在资源受限环境下的应用,如自动驾驶、辅助医疗和移动设备等。因此,实时推理的语义分割网络得到了广泛关注。本文对深度学习中实时语义分割算法进行了全面论述和分析。1)介绍了语义分割和实时语义分割任务的基本概念、应用场景和面临问题;2)详细介绍了实时语义分割算法中常用的技术和设计,包括模型压缩技术、高效卷积神经网络(convolutional neural network,CNN)模块和高效Transformer模块;3)全面整理和归纳了现阶段的实时语义分割算法,包括单分支网络、双分支网络、多分支网络、U型网络和神经架构搜索网络5种类别的实时语义分割方法,涵盖基于CNN、基于Transformer和基于混合框架的分割网络,并分析了各类实时语义分割算法的特点和局限性;4)提供了完整的实时语义分割评价体系,包括相关数据集和评价指标、现有方法性能汇总以及领域主流方法的同设备比较,为后续研究者提供统一的比较标准;5)给出结论并分析了实时语义分割领域仍存在的挑战,对实时语义分割领域未来可能的研究方向提出了相应见解。本文提及的算法、数据集和评估指标已汇总至https://github。com/xzz777/Awesome-Real-time-Semantic-Segmentation,以便后续研究者使用。

    实时语义分割模型轻量化高效模块设计计算机视觉深度学习

    基于深度学习的弱监督语义分割方法综述

    项伟康周全崔景程莫智懿...
    1146-1168页
    查看更多>>摘要:语义分割是计算机视觉领域的基本任务,旨在为每个像素分配语义类别标签,实现对图像的像素级理解。得益于深度学习的发展,基于深度学习的全监督语义分割方法取得了巨大进展。然而,这些方法往往需要大量带有像素级标注的训练数据,标注成本巨大,限制了其在诸如自动驾驶、医学图像分析以及工业控制等实际场景中的应用。为了降低数据的标注成本并进一步拓宽语义分割的应用场景,研究者们越来越关注基于深度学习的弱监督语义分割方法,希望通过诸如图像级标注、最小包围盒标注、线标注和点标注等弱标注信息实现图像的像素级分割预测。首先对语义分割任务进行了简要介绍,并分析了全监督语义分割所面临的困境,从而引出弱监督语义分割。然后,介绍了相关数据集和评估指标。接着,根据弱标注的类型和受关注程度,从图像级标注、其他弱标注以及大模型辅助这3个方面回顾和讨论了弱监督语义分割的研究进展。其中,第2类弱监督语义分割方法包括基于最小包围盒、线和点标注的弱监督语义分割。最后,分析了弱监督语义分割领域存在的问题与挑战,并就其未来可能的研究方向提出建议,旨在进一步推动弱监督语义分割领域研究的发展。

    语义分割深度学习弱监督语义分割(WSSS)图像级标注最小包围盒标注线标注点标注大模型

    车路两端纯视觉鸟瞰图感知研究综述

    周松燃卢烨昊励雪巍傅本尊...
    1169-1187页
    查看更多>>摘要:纯视觉鸟瞰图(bird's-eye-view,BEV)感知是国内外自动驾驶领域的前沿方向与研究热点,旨在通过相机2D图像信息,生成3D空间中周围道路环境俯视视角下的特征表示。该领域在单车智能方向上迅速发展,并实现大量落地部署。但由于车端相机的安装高度受限,不可避免地面临着远距离感知不稳定、存在驾驶盲区等实际问题,单车智能仍存在着一定的安全性风险。路端摄像头部署在红绿灯杆等高处基础设施上,能够有效扩展智能车辆的感知范围,补充盲区视野。因此,车路协同逐渐成为当前自动驾驶的发展趋势。据此,本文从相机部署端和相机视角出发,将纯视觉BEV感知技术划分为车端单视角感知、车端环视视角感知和路端固定视角感知三大方向。在每一方向中,从通用处理流程入手梳理其技术发展脉络,针对主流数据集、BEV映射模型和任务推理输出三大模块展开综述。此外,本文还介绍了相机成像系统的基本原理,并对现有方法从骨干网络使用统计、GPU(graphics process-ing unit)类型使用统计和模型性能统计等角度进行了定量分析,从可视化对比角度进行了定性分析。最后,从场景多元、尺度多样分布等技术挑战和相机几何参数迁移能力差、计算资源受限等部署挑战两方面揭示了当前纯视觉BEV感知技术亟待解决的问题。并从车路协同、车车协同、虚拟现实交互和统一多任务基座大模型4个方向对本领域的发展进行了全面展望。希望通过对纯视觉BEV感知现有研究以及未来趋势的总结为相关领域研究人员提供一个全面的参考以及探索的方向。

    自动驾驶感知纯视觉BEV感知路端固定视角感知车端移动视角感知多视角图像融合

    深度学习实时语义分割研究进展和挑战

    王卓瞿绍军
    1188-1220页
    查看更多>>摘要:语义分割作为计算机视觉领域的重要研究方向之一,应用十分广泛。其目的是根据预先定义好的类别对输入图像进行像素级别的分类。实时语义分割则在一般语义分割的基础上又增加了对速度的要求,广泛应用于如无人驾驶、医学图像分析、视频监控与航拍图像等领域。其要求分割方法不仅要取得较高的分割精度,且分割速度也要快。随着深度学习和神经网络的快速发展,实时语义分割也取得了一定的研究成果。本文在前人已有工作的基础上对基于深度学习的实时语义分割算法进行系统的归纳总结,包括基于Transformer和剪枝的方法等,全面介绍实时语义分割方法在各领域中的应用。首先介绍实时语义分割的概念,再根据标签的数量和质量,将现有的基于深度学习的实时语义分割方法分为强监督学习、弱监督学习和无监督学习3个类别。在分类的基础上,结合各个类别中最具有代表性的方法,对其优缺点展开分析,并从多个角度进行比较。随后介绍目前实时语义分割常用的数据集和评价指标,并对比分析各算法在各数据集上的实验效果,阐述现阶段实时语义分割的应用场景。最后,讨论了基于深度学习的实时语义分割存在的挑战,并对实时语义分割未来值得研究的方向进行展望,为研究者们解决存在的问题提供便利。

    语义分割(SS)实时语义分割深度学习注意力卷积

    针对遮挡物体的轮廓细化实例分割

    李伟黄娅张馨渊韩贵金...
    1221-1232页
    查看更多>>摘要:目的 遮挡物体实例分割效果的好坏与物体轮廓的预测结果息息相关,但目前算法预测的物体轮廓并不够细化,使得分割掩膜粗糙,物体边界分割效果不佳。为此,以BCNet(bilayer convolutional network)网络为基础,提出一种针对遮挡物体的轮廓细化实例分割算法,预测的物体轮廓更加精细,分割掩膜更加完整。方法 1)提出一种均衡池化注意力模块来提取特征,在传统一维平均池化的基础上,增加一维最大池化操作以突出细节特征,并将最大池化和平均池化结果进行加权融合来提取特征,使提取的特征能更好地兼顾物体的整体和边缘细节;2)将BCNet掩膜头中轮廓预测与掩膜预测分成两个支路来进行,从特征金字塔最高分辨率特征中提取感兴趣区域(region of interest,RoI)特征用于轮廓预测,并提出一种自适应特征融合模块,将轮廓预测支路中的特征与掩膜预测支路的特征进行融合,在轮廓预测支路中,融合掩膜预测支路的特征可以更好地判定轮廓所属物体类别,在掩膜预测支路,融合轮廓预测支路的特征能够更好地辅助掩膜定位。结果 在COCO 2017(common objects in context 2017)数据集上,本文相较于目前同类网络中性能最优的BCNet网络,在骨干网络为ResNet-50/101(deep residual network)时平均精度(average precision,AP)分别提高了 1。7%和2。1%。结合可视化结果,本文分割算法对遮挡物体的轮廓分割更加精细,能有效分割出更加完整、精细的掩码。结论 提出的针对遮挡物体的轮廓细化实例分割算法,明显提升了遮挡物体实例分割的效果。

    遮挡物体实例分割均衡池化注意力模块(BPAM)自适应特征融合模块(AFFM)BCNet轮廓预测支路掩膜预测支路

    多帧时空注意力引导的半监督视频分割

    罗思涵袁夏梁永顺
    1233-1251页
    查看更多>>摘要:目的 传统的半监督视频分割多是基于光流的方法建模关键帧与当前帧之间的特征关联。而光流法在使用过程中容易因遮挡、特殊纹理等情况产生错误,从而导致多帧融合存在问题。为了更好地融合多帧特征,本文提取第1帧的外观特征信息与邻近关键帧的位置信息,通过Transformer和改进的PAN(path aggregation network)模块进行特征融合,从而基于多帧时空注意力学习并融合多帧的特征。方法 多帧时空注意力引导的半监督视频分割方法由视频预处理(即外观特征提取网络和当前帧特征提取网络)以及基于Transformer和改进的PAN模块的特征融合两部分构成。具体包括以下步骤:构建一个外观信息特征提取网络,用于提取第1帧图像的外观信息;构建一个当前帧特征提取网络,通过Transformer模块对当前帧与第1帧的特征进行融合,使用第1帧的外观信息指导当前帧特征信息的提取;借助邻近数帧掩码图与当前帧特征图进行局部特征匹配,决策出与当前帧位置信息相关性较大的数帧作为邻近关键帧,用来指导当前帧位置信息的提取;借助改进的PAN特征聚合模块,将深层语义信息与浅层语义信息进行融合。结果 本文算法在DAVIS(densely annotated video segmentation)-2016数据集上的J和F得分为81。5%和80。9%,在DAVIS-2017数据集上为78。4%和77。9%,均优于对比方法。本文算法的运行速度为22帧/s,对比实验中排名第 2,比PLM(pixel-level matching)算法低 1。6%。在 YouTube-VOS(video object segmentation)数据集上也取得了有竞争力的结果,J和F的平均值达到了71。2%,领先于对比方法。结论 多帧时空注意力引导的半监督视频分割算法在对目标物体进行分割的同时,能有效融合全局与局部信息,减少细节信息丢失,在保持较高效率的同时能有效提高半监督视频分割的准确率。

    视频目标分割(VOS)特征提取网络外观特征信息时空注意力特征聚合

    互补特征交互融合的RGB_D实时显著目标检测

    叶欣悦朱磊王文武付云...
    1252-1264页
    查看更多>>摘要:目的 通过融合颜色、深度和空间信息,利用RGB_D这两种模态数据的显著目标检测方案通常能比单一模态数据取得更加准确的预测结果。深度学习进一步推动RGB_D显著目标检测领域的发展。然而,现有RGB_D显著目标检测深度网络模型容易忽略模态的特异性,通常仅通过简单的元素相加、相乘或特征串联来融合多模态特征,如何实现RGB图像和深度图像之间的信息交互则缺乏合理性解释。为了探求两种模态数据中的互补信息重要性及更有效的交互方式,在分析了传统卷积网络中修正线性单元(rectified linear unit,ReLU)选通特性的基础上,设计了一种新的RGB和深度特征互补信息交互机制,并首次应用于RGB_D显著目标检测中。方法 首先,根据该机制提出了互补信息交互模块将模态各自的"冗余"特征用于辅助对方。然后,将其阶段式插入两个轻量级主干网络分别用于提取RGB和深度特征并实施两者的交互。该模块核心功能基于修改的ReLU,具有结构简单的特点。在网络的顶层还设计了跨模态特征融合模块用于提取融合后特征的全局语义信息。该特征被馈送至主干网络每个尺度,并通过邻域尺度特征增强模块与多个尺度特征进行聚合。最后,采用了深度恢复监督、边缘监督和深度监督3种监督策略以有效监督提出模型的优化过程。结果 在4个广泛使用的公开数据集NJU2K(Nanjing University 2K)、NLPR(national laboratory of pattern recognition)、STERE(stereo dataset)和SIP(salient person)上的定量和定性的实验结果表明,以Max F-measure、MAE(mean absolute error)以及Max E-measure共3种主流测度评估,本文提出的显著目标检测模型相比较其他方法取得了更优秀的性能和显著的推理速度优势(373。8帧/s)。结论 本文论证了在RGB_D显著目标检测中两种模态数据具有信息互补特点,提出的模型具有较好的性能和高效率推理能力,有较好的实际应用价值。

    显著目标检测(SOD)RGB_D深度卷积网络互补信息交互跨模态特征融合

    多尺度特征融合与交叉指导的小样本语义分割

    郭婧王飞
    1265-1276页
    查看更多>>摘要:目的 构建支持分支和查询分支间的信息交互对于提升小样本语义分割的性能具有重要作用,提出一种多尺度特征融合与交叉指导的小样本语义分割算法。方法 利用一组共享权重的主干网络将双分支输入图像映射到深度特征空间,并将输出的低层、中间层和高层特征进行尺度融合,构造多尺度特征;借助支持分支的掩码将支持特征分解成目标前景和背景特征图;设计了一种特征交互模块,在支持分支的目标前景和整个查询分支的特征图上建立信息交互,增强任务相关特征的表达能力,并利用掩码平均池化策略生成目标前景和背景区域的原型集;利用无参数的度量方法分别计算支持特征和原型集、查询特征与原型集之间的余弦相似度值,并根据相似度值给出对应图像的掩码。结果 通过在 PASCAL-5i(pattem analysis,statistical modeling and computational learning)和 COCO-20i(common objects in context)开源数据集上进行实验,结果表明,利用 VGG-16(Visual Geometry Group)、ResNet-50(residual neural network)和ResNet-101作为主干网络时,所提模型在1-way 1-shot任务中,分别获得50。2%、53。2%、57。1%和 23。9%、35。1%、36。4%的平均交并比(mean intersection over union,mIoU),68。3%、69。4%、72。3%/和60。1%、62。4%、64。1%的前景背景二分类交并比(foreground and background intersection over union,FB-IoU);在1-way 5-shot任务上,分别获得 52。9%、55。7%、59。7%和 32。5%、37。3%、38。3%的 mIoU,69。7%、72。5%、74。6%和64。2%、66。2%、66。7%的FB-IoU。结论 相比当前主流的小样本语义分割模型,所提模型在1-way 1-shot和1-way 5-shot任务中可以获得更高的mIoU和FB-IoU,综合性能提升效果显著。

    小样本语义分割多尺度特征融合跨分支交叉指导特征交互掩码平均池化

    跨层细节感知和分组注意力引导的遥感图像语义分割

    李林娟贺赟谢刚张浩雪...
    1277-1290页
    查看更多>>摘要:目的 语义分割是遥感图像智能解译的关键任务之一,遥感图像覆盖面广,背景交叉复杂,且地物尺寸差异性大。现有方法在复杂背景下的多尺度地物上分割效果较差,且分割区域破碎边界不连续。针对上述问题,提出了一种跨层细节感知和分组注意力引导的语义分割模型用于高分辨率遥感图像解析。方法 首先采用结构新颖的ConvNeXt骨干网络,编码输入图像的各层次特征。其次,设计了分组协同注意力模块,分组并行建模通道和空间维度的特征依赖性,通道注意力和空间注意力协同强化重要通道和区域的特征信息。接着,引入了自注意力机制,构建了跨层细节感知模块,利用低层特征中丰富的细节信息,指导高层特征层学习空间细节,保证分割结果的区域完整性和边界连续性。最后,以山西省太原市为研究区域,自制高分辨率遥感太原市城区土地覆盖数据集(Tai-yuan urban land cover dataset,TULCD),所提方法实现了太原市城区土地覆盖精细分类任务。结果 实验在自制数据集TULCD和公开数据集Vaihingen上与最新的5种算法进行了比较,所提方法在两个数据集上平均像素准确率(mean pixel accuracy,mPA)为 74。23%、87。26%,平均交并比(mean intersection over union,mIoU)为 58。91%、77。02%,平均得分mF1为72。24%、86。35%,均优于对比算法。结论 本文提出的高分辨率遥感图像语义分割模型具有较强的空间和细节感知能力,对类间差异小的相邻地物也有较强的鉴别能力,模型的整体分割精度较高。

    遥感图像语义分割全卷积网络(FCN)注意力机制分组卷积