首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    流形正则化的交叉一致性语义分割算法

    刘腊梅宗佳旭肖振久兰海...
    3542-3552页
    查看更多>>摘要:目的 为有效解决半监督及弱监督语义分割模型中上下文信息缺失问题,在充分考虑模型推理效率的基础上,提出基于流形正则化的交叉一致性语义分割算法.方法 首先,以交叉一致性训练模型作为骨架网络,通过骨架网络获得预测分割图像.其次,对输入域图像和输出域图像进行子图像块划分,以获取具有相同几何结构的数据对.再次,通过原始图像和分割图像的子图像块,计算输入数据与预测结果所处流形曲面上的潜在几何约束关系,并根据不同的训练方式分别设计半监督及弱监督的正则化算法.最后,利用流形约束的结果进一步优化图像分割网络中的参数,并通过反复迭代使半监督或弱监督的语义分割模型达到最优.结果 通过加入流形正则化约束,捕获了图像中上下文信息,降低了网络前向计算过程中造成的本征结构的损失,在不改变网络结构的前提下提高了算法精度.为验证算法的有效性,实验分别在半监督和弱监督两种不同类型的语义分割中进行了对比,在PASCAL VOC 2012(pattern analysis,statistical modeling and computational learning visual object classes 2012)数据集上,对半监督语义分割任务,本文算法比原始网络提高了3.7%,对弱监督语义分割任务,本文算法比原始网络提高了1.1%.结论 本文算法在不改变原有网络结构的基础上,提升了半监督及弱监督图像语义分割模型的精度,尤其对图像中几何特征明显的目标与区域,精度提升更加明显.

    深度学习语义分割半监督语义分割弱监督语义分割交叉一致性训练流形正则化

    联合语义分割与边缘重建的深度学习图像修复

    杨红菊李丽琴王鼎
    3553-3565页
    查看更多>>摘要:目的 传统图像修复方法缺乏对图像高级语义的理解,只能应对结构纹理简单的小面积受损.现有的端到端深度学习图像修复方法在大量训练图像的支持下克服了上述局限性,但由于这些方法试图在约束不足的情况下恢复整个目标,修复的图像往往存在边界模糊和结构扭曲问题.对此,本文提出一种语义分割结构与边缘结构联合指导的深度学习图像修复方法.方法 该方法将图像修复任务分解为语义分割重建、边缘重建和内容补全3个阶段.首先重建缺失区域的语义分割结构,然后利用重建的语义分割结构指导缺失区域边缘结构的重建,最后利用重建的语义分割结构与边缘结构联合指导图像缺失区域内容的补全.结果 在CelebAMask-HQ(celebfaces at-tributes mask high quality)人脸数据集和Cityscapes城市景观数据集上,将本文方法与其他先进的图像修复方法进行对比实验.在掩膜比例为50%~60%的情况下,与性能第2的方法相比,本文方法在Celebamask-HQ数据集上的平均绝对误差降低了4.5%,峰值信噪比提高了1.6%,结构相似性提高了1.7%;在Cityscapes数据集上平均绝对误差降低了4.2%,峰值信噪比提高了1.5%,结构相似性提高了1.9%.结果 表明,本文方法在平均绝对误差、峰值信噪比和结构相似性3个指标上均优于对比方法,且生成的图像边界清晰,视觉上更加合理.结论 本文提出的3阶段图像修复方法在语义分割结构与边缘结构的联合指导下,有效减少了结构重建错误.当修复涉及大面积缺失时,该方法比现有方法具有更高的修复质量.

    图像修复生成对抗网络(GAN)语义分割边缘检测深度学习

    类别敏感的全局时序关联视频动作检测

    王东祺赵旭
    3566-3580页
    查看更多>>摘要:目的 视频动作检测是视频理解领域的重要问题,该任务旨在定位视频中动作片段的起止时刻并预测动作类别.动作检测的关键环节包括动作模式的识别和视频内部时序关联的建立.目前主流方法往往试图设计一种普适的检测算法以定位所有类别的动作,忽略了不同类别间动作模式的巨大差异,限制了检测精度.此外,视频内部时序关联的建立对于检测精度至关重要,图卷积常用于全局时序建模,但其计算量较大.针对当前方法的不足,本文提出动作片段的逐类检测方法,并借助门控循环单元以较低的计算代价有效建立了视频内部的全局时序关联.方法 动作模式识别方面,首先对视频动作进行粗略分类,然后借助多分支的逐类检测机制对每类动作进行针对性检测,通过识别视频局部特征的边界模式来定位动作边界,通过识别动作模式来评估锚框包含完整动作的概率;时序建模方面,构建了一个简洁有效的时序关联模块,利用门控循环单元建立了当前时刻与过去、未来时刻间的全局时序关联.上述创新点整合为类别敏感的全局时序关联视频动作检测方法.结果 为验证本文方法的有效性,使用多种视频特征在两个公开数据集上进行实验,并与其他先进方法进行比较.在ActivityNet-1.3数据集中,该方法在双流特征下的平均mAP(mean average precision)达到35.58%,优于其他现有方法;在THUMOS-14数据集中,该方法在多种特征下的指标均取得了最佳性能.实验结果表明,类别敏感的逐类检测思路和借助门控循环单元的时序建模方法有效提升了视频动作检测精度.此外,提出的时序关联模块计算量低于使用图卷积建模的其他主流模型,且具备一定的泛化能力.结论 提出了类别敏感的全局时序关联视频动作检测模型,实现了更为细化的逐类动作检测,同时借助门控循环单元设计了时序关联模块,提升了视频动作检测的精度.

    视频动作理解视频动作提名视频动作检测卷积神经网络(CNN)门控循环单元(GRU)

    空间感知通道注意力引导的高动态图像重建

    唐凌峰黄欢张亚飞李凡...
    3581-3595页
    查看更多>>摘要:目的 通过融合一组不同曝光程度的低动态范围(low dynamic range,LDR)图像,可以有效重建出高动态范围(high dynamic range,HDR)图像.但LDR图像之间存在背景偏移和拍摄对象运动的现象,会导致重建的HDR图像中引入鬼影.基于注意力机制的HDR重建方法虽然有一定效果,但由于没有充分挖掘特征空间维度和通道维度的相互关系,只在物体出现轻微运动时取得比较好的效果.当场景中物体出现大幅运动时,这些方法的效果仍然存在提升空间.为此,本文提出了空间感知通道注意力引导的多尺度HDR图像重建网络来实现鬼影抑制和细节恢复.方法 本文提出了一种全新的空间感知通道注意力机制(spatial aware channel attention mechanism,SACAM),该机制在挖掘通道上下文关系的过程中,通过提取特征通道维度的全局信息和显著信息,来进一步强化特征的空间关系.这有助于突出特征空间维度与通道维度有益信息的重要性,实现鬼影抑制和特征中有效信息增强.此外,本文还设计了一个多尺度信息重建模块(multiscale information reconstruction module,MIM).该模块有助于增大网络感受野,强化特征空间维度的显著信息,还能充分利用不同尺度特征的上下文语义信息,来重构最终的HDR图像.结果 在Kalantari测试集上,本文方法的PSNR-L(peak signal to noise ratio-linear domain)和SSIM-L(structural similarity-linear domain)分别为41.1013、0.9865.PSNR-μ(peak signal to noise ratio-tonemapped domain)和SSIM-μ(structural similarity-tonemapped domain)分别为43.4136、0.9902.在Sen和Tursun数据集上,本文方法较为真实地重构了场景的结构,并清晰地恢复出图像细节,有效避免了鬼影的产生.结论 本文提出的空间感知通道注意力引导的多尺度HDR图像重建网络,有效挖掘了特征中对重构图像有益的信息,提升了网络恢复细节信息的能力.并在多个数据集上取得了较为理想的HDR重建效果.

    多曝光图像融合高动态范围(HDR)注意力多尺度鬼影抑制

    结合轻量化骨干与多尺度融合的单阶段检测器

    黄健宸王晗卢昊
    3596-3607页
    查看更多>>摘要:目的 基于卷积神经网络的单阶段目标检测网络具有高实时性与高检测精度,但其通常存在两个问题:1)模型中存在大量冗余的卷积计算;2)多尺度特征融合结构导致额外的计算开销.这导致单阶段检测器需要大量的计算资源,难以在计算资源不足的设备上应用.针对上述问题,本文在YOLOv5(you only look once version 5)的结构基础上,提出一种轻量化单阶段目标检测网络架构,称为E-YOLO(efficient-YOLO).方法 利用E-YOLO架构构建了E-YOLOm(efficient-YOLO medium)与E-YOLOs(efficient-YOLO small)两种不同大小的模型.首先,设计了多种更加高效的特征提取模块以减少冗余的卷积计算,对模型中开销较大的特征图通过下采样、特征提取、通道升降维与金字塔池化进行了轻量化设计.其次,为解决多尺度特征融合带来的冗余开销,提出了一种高效多尺度特征融合结构,使用多尺度特征加权融合方案减少通道降维开销,设计中层特征长跳连接缓解特征流失.结果 实验表明,E-YOLOm、E-YOLOs与YOLOv5m、YOLOv5s相比,参数量分别下降了71.5% 和61.6%,运算量下降了67.3%和49.7%.在VOC(visual object classes)数据集上的平均精度(average precision,AP),E-YOLOm比YOLOv5m仅下降了2.3%,E-YOLOs比YOLOv5s提升了3.4%.同时,E-YOLOm的参数量和运算量相比YOLOv5s分别低15.5%与1.7%,mAP@0.5和AP比其高3.9%和11.1%,具有更小的计算开销与更高的检测效率.结论 本文提出的E-YOLO架构显著降低了单阶段目标检测网络中冗余的卷积计算与多尺度融合开销,且具有良好的鲁棒性,并优于对比网络轻量化方案,在低运算性能的环境中具有重要的实用意义.

    卷积神经网络(CNN)目标检测模型轻量化注意力模块多尺度融合

    融合时序特征约束与联合优化的点云3维人体姿态序列估计

    廖联军钟重阳张智恒胡磊...
    3608-3621页
    查看更多>>摘要:目的 3维人体姿态估计传统方法通常采用单帧点云作为输入,可能会忽略人体运动平滑度的固有先验知识,导致产生抖动伪影.目前,获取2维人体姿态标注的真实图像数据集相对容易,而采集大规模的具有高质量3维人体姿态标注的真实图像数据集进行完全监督训练有一定难度.对此,本文提出了一种新的点云序列3维人体姿态估计方法.方法 首先从深度图像序列估计姿态相关点云,然后利用时序信息构建神经网络,对姿态相关点云序列的时空特征进行编码.选用弱监督深度学习,以利用大量的更容易获得的带2维人体姿态标注的数据集.最后采用多任务网络对人体姿态估计和人体运动预测进行联合训练,提高优化效果.结果 在两个数据集上对本文算法进行评估.在ITOP(invariant-top view dataset)数据集上,本文方法的平均精度均值(mean average preci-sion,mAP)比对比方法分别高0.99%、13.18%和17.96%.在NTU-RGBD数据集上,本文方法的mAP值比最先进的WSM(weakly supervised adversarial learning methods)方法高7.03%.同时,在ITOP数据集上对模型进行消融实验,验证了算法各个不同组成部分的有效性.与单任务模型训练相比,多任务网络联合进行人体姿态估计和运动预测的mAP可以提高2% 以上.结论 本文提出的点云序列3维人体姿态估计方法能充分利用人体运动连续性的先验知识,获得更平滑的人体姿态估计结果,在ITOP和NTU-RGBD数据集上都能获得很好的效果.采用多任务网络联合优化策略,人体姿态估计和运动预测两个任务联合优化求解,有互相促进的作用.

    人体运动人体姿态估计人体运动预测点云序列弱监督学习

    改进U-Net3+与跨模态注意力块的医学图像融合

    王丽芳米嘉秦品乐蔺素珍...
    3622-3636页
    查看更多>>摘要:目的 针对目前多模态医学图像融合方法深层特征提取能力不足,部分模态特征被忽略的问题,提出了基于U-Net3+与跨模态注意力块的双鉴别器生成对抗网络医学图像融合算法(U-Net3+and cross-modal attention block dual-discriminator generative adversal network,UC-DDGAN).方法 结合U-Net3+可用很少的参数提取深层特征、跨模态注意力块可提取两模态特征的特点,构建UC-DDGAN网络框架.UC-DDGAN包含一个生成器和两个鉴别器,生成器包括特征提取和特征融合.特征提取部分将跨模态注意力块嵌入到U-Net3+下采样提取图像深层特征的路径上,提取跨模态特征与提取深层特征交替进行,得到各层复合特征图,将其进行通道叠加、降维后上采样,输出包含两模态全尺度深层特征的特征图.特征融合部分通过将特征图在通道上进行拼接得到融合图像.双鉴别器分别对不同分布的源图像进行针对性鉴别.损失函数引入梯度损失,将其与像素损失加权优化生成器.结果 将UC-DDGAN与5种经典的图像融合方法在美国哈佛医学院公开的脑部疾病图像数据集上进行实验对比,其融合图像在空间频率(spatial frequency,SF)、结构相似性(structural similarity,SSIM)、边缘信息传递因子(degree of edge information,QAB/F)、相关系数(correlation coefficient,CC)和差异相关性(the sum of the correlations of differences,SCD)等指标上均有提高,SF较DDcGAN(dual discriminator generation adversative network)提高了5.87%,SSIM较FusionGAN(fusion generative adversarial network)提高了8%,QAB/F较FusionGAN提高了12.66%,CC较DDc-GAN提高了14.47%,SCD较DDcGAN提高了14.48%.结论 UC-DDGAN生成的融合图像具有丰富深层特征和两模态关键特征,其主观视觉效果和客观评价指标均优于对比方法,为临床诊断提供了帮助.

    U-Net3+跨模态注意力块双鉴别器生成对抗网络梯度损失多模态医学图像融合

    双重编—解码架构的肠胃镜图像息肉分割

    魏天琦肖志勇
    3637-3650页
    查看更多>>摘要:目的 肠胃镜诊断一直被认为是检测及预防结直肠癌的金标准,但当前的临床检查中仍存在一定的漏诊概率,基于深度学习的肠胃内窥镜分割方法可以帮助医生准确评估癌前病变,对诊断和干预治疗都有积极作用.然而提高目标分割的准确性仍然是一项具有挑战性的工作,针对这一问题,本文提出一种基于双层编—解码结构的算法.方法 本文算法由上、下游网络构成,创新性地利用上游网络训练产生注意力权重图,对下游网络解码过程中的特征图产生注意力引导,使分割模型更加注重目标区域;提出子空间通道注意力结构,在跨越连接中提取多分辨率下的跨通道信息,可以有效细化分割边缘;最终输出添加残差结构防止网络退化.结果 在公共数据集CVC-ClinicDB(Colonoscopy Videos Challenge-ClinicDataBase)和Kvasir-Capsule上进行测试,采用Dice相似系数(Dice similariy coefficient,DSC)、均交并比(mean intersection over union,mIoU)、精确率(precision)以及召回率(recall)为评价指标,在两个数据集上的DSC分别达到了94.22%和96.02%.进一步将两个数据集混合,测试了算法在跨设备图像上的鲁棒性,其中DSC提升分别达到17%—20%,在没有后处理的情况下,相较其他先进模型(state-of-the-art,SOTA),如U-Net在DSC、mIoU以及recall上分别取得了1.64%、1.41%和2.54%的提升,与ResUNet++的对比中,在DSC以及recall指标上分别取得了2.23%和9.87%的提升,与SFA(selective feature aggregation network)、PraNet和TransFuse等算法相比,在上述评价指标上也均有显著提升.结论 本文算法可以有效提高医学图像分割效果,并且对小目标分割、边缘分割具有更高的准确率.

    息肉分割结肠镜检查深度学习语义分割注意力机制医学图像处理

    融合多头注意力机制的新冠肺炎联合诊断与分割

    李金星孙俊李超Bilal Ahmad...
    3651-3662页
    查看更多>>摘要:目的 新冠肺炎疫情席卷全球,为快速诊断肺炎患者,确认患者肺部感染区域,大量检测网络相继提出,但现有网络大多只能处理一种任务,即诊断或分割.本文提出了一种融合多头注意力机制的联合诊断与分割网络,能同时完成X线胸片的肺炎诊断分类和新冠感染区分割.方法 整个网络由3部分组成,双路嵌入层通过两种不同的图像嵌入方式分别提取X线胸片的浅层直观特征和深层抽象特征;Transformer模块综合考虑提取到的浅层直观与深层抽象特征;分割解码器扩大特征图以输出分割区域.为响应联合训练,本文使用了一种混合损失函数以动态平衡分类与分割的训练.分类损失定义为分类对比损失与交叉熵损失的和;分割损失是二分类的交叉熵损失.结果 基于6个公开数据集的合并数据实验结果表明,所提网络取得了95.37% 的精度、96.28% 的召回率、95.95%的F1指标和93.88%的kappa系数,诊断分类性能超过了主流的ResNet50、VGG16(Visual Geometry Group)和Inception_v3等网络;在新冠病灶分割表现上,相比流行的U-Net及其改进网络,取得最高的精度(95.96%),优异的敏感度(78.89%)、最好的Dice系数(76.68%)和AUC(area under ROC curve)指标(98.55%);效率上,每0.56 s可输出一次诊断分割结果.结论 联合网络模型使用Transformer架构,通过自注意力机制关注全局特征,通过交叉注意力综合考虑深层抽象特征与浅层高级特征,具有优异的分类与分割性能.

    新冠肺炎(COVID-19)自动诊断肺部区域分割多头注意力机制混合损失

    融入混合注意力的可变形空洞卷积近岸SAR小舰船检测

    龚声蓉徐少杰周立凡朱杰...
    3663-3676页
    查看更多>>摘要:目的 在近岸合成孔径雷达(synthetic aperture radar,SAR)图像舰船检测中,由于陆地建筑及岛屿等复杂背景的影响,小型舰船与周边相似建筑及岛屿容易混淆.现有方法通常使用固定大小的方形卷积核提取图像特征.但是小型舰船在图像中占比较小,且呈长条形倾斜分布.固定大小的方形卷积核引入了过多背景信息,对分类造成干扰.为此,本文针对SAR图像舰船目标提出一种基于可变形空洞卷积的骨干网络.方法 首先用可变形空洞卷积核代替传统卷积核,使提取特征位置更贴合目标形状,强化对舰船目标本身区域和边缘特征的提取能力,减少背景信息提取.然后提出3通道混合注意力机制来加强局部细节信息提取,突出小型舰船与暗礁、岛屿等的差异性,提高模型细分类效果.结果 在SAR图像舰船数据集HRSID(high-resolution SAR images dataset)上的实验结果表明,本文方法应用在Cascade-RCNN(cascade region convolutional neural network)、YOLOv4(you only look once v4)和BorderDet(border detection)3种检测模型上,与原模型相比,对小型舰船的检测精度分别提高了3.5%、2.6%和2.9%,总体精度达到89.9%.在SSDD(SAR ship detection dataset)数据集上的总体精度达到95.9%,优于现有方法.结论 本文通过改进骨干网络,使模型能够改变卷积核形状和大小,集中获取目标信息,抑制背景信息干扰,有效降低了SAR图像近岸复杂背景下小型舰船的误检漏检情况.

    舰船检测合成孔径雷达(SAR)图像可变形卷积视觉注意力机制空洞卷积