首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    边缘引导的双注意力图像拼接检测网络

    吴晶辉严彩萍李红刘仁海...
    430-443页
    查看更多>>摘要:目的 伪造图像给众多行业埋下了隐患,这会造成大量潜在的经济损失.方法 提出一种边缘引导的双注意力图像拼接检测网络(boundary-guided dual attention network,BDA-Net),该网络通过将空间通道依赖和边缘预测集成到网络提取的特征中来得到预测结果.首先,提出一种称为预测分支的编解码模型,该分支作为模型的主干网络,可以提取和融合不同分辨率的特征图.其次,为了捕捉不同维度的依赖关系并增强网络对感兴趣区域的关注能力,设计了一个沿多维度进行特征编码的坐标一空间注意力模块(coordinate-spatial attention module,CSAM).最后,设计了一条边缘引导分支来捕获篡改区域和非篡改区域之间的微小边缘痕迹,以辅助预测分支进行更好的分割.结果 实验使用4个图像拼接数据集与多种方法进行比较,评价指标为F1值.在Columbia数据集中,与排名第1的模型相比,F1值仅相差1.6%.在NIST16 Splicing(National Institute of Standards and Technology 16 Splicing)数据集中,F1值与最好的模型略有差距.而在检测难度更高的CASIA2.0 Splicing(Chinese Academy of Sciences Insti-tute of Automation Dataset 2.0 Splicing)和 IMD2020(Image Manipulated Datasets 2020)数据集中,BDA-Net的F1值相比排名第2的模型分别提高了15.3%和11.9%.为了验证模型的鲁棒性,还对图像施加JPEG压缩、高斯模糊、锐化、高斯噪声和椒盐噪声攻击.实验结果表明,BDA-Net的鲁棒性明显优于其他模型.结论 本文方法充分利用深度学习模型的优点和图像拼接检测领域的专业知识,能有效提升模型性能.与现有的检测方法相比,具有更强的检测能力和更好的稳定性.

    图像取证图像篡改检测卷积神经网络(CNN)注意力机制融合算法

    结合金字塔Transformer与浅层CNN的变电站图像篡改检测

    邢建好田秀霞韩奕
    444-456页
    查看更多>>摘要:目的 变电站图像拼接篡改是电力系统的一大安全隐患,针对篡改图像背景复杂、篡改内容尺度不一造成的误检漏检问题以及相关研究较少,本文提出一种面向变电站的拼接篡改图像的双通道检测模型.方法 两通道均采用深度学习方法自适应提取篡改图像和残差图像的特征,其中篡改图像包含丰富的色彩特征和内容信息,残差图像重点凸显了篡改区域的边缘,有效应对了篡改图像多样性导致的篡改特征提取困难问题;将特征金字塔结构Transformer通道作为网络主分支,通过全局交互机制获取图像全局信息,建立关键点之间的联系,使模型具备良好的泛化性和多尺度特征处理能力;引入浅层卷积神经网络(convolutional neural network,CNN)通道作为辅助分支,着重提取篡改区域的边缘特征,使模型在整体轮廓上更容易定位篡改区域.结果 实验在自制变电站拼接篡改数据集(self-made substation splicing tampered dataset,SSSTD)、CASIA(Chinese Academy of Sciences Institute of Automation dataset)和NIST16(National Institute of Standards and Technology 16)上与4种同类型方法进行比较.定量上看,在SSSTD数据集中,本文模型相对性能第2的模型在精确率、召回率、F1和平均精度上分别提高了0.12%、2.17%、1.24%和7.71%;在CASIA和NIST16数据集中,本文模型也取得了最好成绩.定性上看,所提模型减少了误检和漏检,同时定位精度更高.结论 本文提出的双通道拼接篡改检测模型结合了Transformer和CNN在图像篡改检测方面的优势,提高了模型的检测精度,适用于复杂变电站场景下的篡改目标检测.

    变电站图像拼接篡改检测Transformer卷积神经网络(CNN)双通道网络特征金字塔结构浅层网络

    结合图像块比较与残差图估计的人脸伪造检测

    冯才博刘春晓王昱烨周其当...
    457-467页
    查看更多>>摘要:目的 由于不同伪造类型样本的数据分布差距较大,现有人脸伪造检测方法的准确度不够高,而且泛化性能差.为此,本文引入"图像块归属纯净性"和"残差图估计可靠性"的概念,提出了基于图像块比较和残差图估计的人脸伪造检测方法.方法 除了骨干网络,本文的人脸伪造检测神经网络主要由纯净图像块比较模块和可靠残差图估计模块两部分组成.为了避免在同时包含人脸和背景像素的图像块上提取的混杂特征对于图像块比较的干扰,纯净图像块比较模块中选择只包含人脸像素的纯净人脸图像块和只包含背景像素的纯净背景图像块,通过比较两种图像块纯净特征之间的差异来检测伪造图像,图像块的纯净性保障了特征提取的纯净性,从而提高了特征比较的鲁棒性.考虑到靠近伪造边缘的像素比远离伪造边缘的像素具有较高的残差估计准确度,本文在可靠残差图估计模块中根据像素到伪造边缘的距离设计了一个距离场加权的残差损失来引导网络的训练过程,使网络重点关注输入图像与对应真实图像在伪造边缘附近的差异,对于可靠信息的关注进一步增强了伪造检测的鲁棒性.结果 在FF++(FaceForensics++)数据集上的测试结果显示:与对比算法中性能最好的F2Trans-B相比,本文方法的准确率和AUC(area under the ROC curve)指标分别提高了2.49%和3.31%,在FS(FaceSwap)与F2F(Face2Face)两种伪造数据上的准确率指标分别提高了6.01%和3.99%.在泛化性能方面,与11种已有方法在交叉数据集上的测试结果显示:本文方法与其中性能最好的方法相比,在CDF(Celeb-DF)数据集上的视频AUC指标和图像AUC指标分别提高了1.85%和1.03%.结论 与对比方法相比,由于提高了特征信息的纯净性和可靠性,本文提出的人脸图像伪造检测模型的泛化能力和准确率优于对比方法.

    人脸图像伪造检测深度伪造多任务学习泛化性能像素级监督卷积神经网络

    杂乱场景下小物体抓取检测研究

    孙国栋贾俊杰李明晶张杨...
    468-477页
    查看更多>>摘要:目的 杂乱场景下的物体抓取姿态检测是智能机器人的一项基本技能.尽管六自由度抓取学习取得了进展,但先前的方法在采样和学习中忽略了物体尺寸差异,导致在小物体上抓取表现较差.方法 提出了一种物体掩码辅助采样方法,在所有物体上采样相同的点以平衡抓取分布,解决了采样点分布不均匀问题.此外,学习时采用多尺度学习策略,在物体部分点云上使用多尺度圆柱分组以提升局部几何表示能力,解决了由物体尺度差异导致的学习抓取操作参数困难问题.通过设计一个端到端的抓取网络,嵌入了提出的采样和学习方法,能够有效提升物体抓取检测性能.结果 在大型基准数据集GraspNet-1Billion上进行评估,本文方法取得对比方法中的最优性能,其中在小物体上的抓取指标平均提升了7%,大量的真实机器人实验也表明该方法具有抓取未知物体的良好泛化性能.结论 本文聚焦于小物体上的抓取,提出了一种掩码辅助采样方法嵌入到提出的端到端学习网络中,并引入了多尺度分组学习策略提高物体的局部几何表示,能够有效提升在小尺寸物体上的抓取质量,并在所有物体上的抓取评估结果都超过了对比方法.

    六自由度抓取采样策略多尺度学习点云学习深度学习

    结合背景图的高分辨率视频人像实时抠图网络

    彭泓张家宝贾迪安彤...
    478-490页
    查看更多>>摘要:目的 近年来,采用神经网络完成人像实时抠图已成为计算机视觉领域的研究热点,现有相关网络在处理高分辨率视频时还无法满足实时性要求,为此本文提出一种结合背景图的高分辨率视频人像实时抠图网络.方法 给出一种由基准网络和精细化网络构成的双层网络,在基准网络中,视频帧通过编码器模块提取图像的多尺度特征,采用金字塔池化模块融合这些特征作为循环解码器网络的输入;在循环解码器中,通过残差门控循环单元聚合连续视频帧间的时间信息,以此生成蒙版图、前景残差图和隐藏特征图,采用残差结构降低模型参数量并提高网络的实时性.为提高高分辨率图像实时抠图性能,在精细化网络中,设计高分辨率信息指导模块,通过高分辨率图像信息指导低分辨率图像的方式生成高质量人像抠图结果.结果 与近年来的相关网络模型进行实验对比,实验结果表明,本文方法在高分辨率数据集Human2K上优于现有相关方法,在评价指标(绝对误差、均方误差、梯度、连通性)上分别提升了18.8%、39.2%、40.7%、20.9%.在NVIDIA GTX 1080Ti GPU上处理4 K分辨率影像运行速率可达26帧/s,处理HD(high definition)分辨率影像运行速率可达43帧/s.结论 本文模型能够更好地完成高分辨率人像实时抠图任务,可以为影视、短视频社交以及网络会议等高级应用提供更好的支持.

    人像实时抠图神经网络多尺度特征时间信息高分辨率

    面向图像内补与外推问题的迭代预测统一框架

    郭冬升顾肇瑞郑冰董军宇...
    491-505页
    查看更多>>摘要:目的 图像内补与外推可看做根据已知区域绘制未知区域的问题,是计算机视觉领域研究热点.近年来,深度神经网络成为解决内补与外推问题的主流方法.然而,当前解决方法多分别对待内补与外推问题,导致二者难以统一处理;且模型多采用卷积神经网络(convolutional neural network,CNN)构建,受到视野局部性限制,较难绘制远距离内容.针对这两个问题,本文按照分而治之思想联合CNN与Transformer构建深度神经网络,提出图像内补与外推统一处理框架及模型.方法 将内补与外推问题的解决过程分解为"表征、预测、合成"3个部分,表征与合成采用CNN完成,充分利用其局部相关性进行图像到特征映射和特征到图像重建;核心预测由Transformer实现,充分发挥其强大的全局上下文关系建模能力,并提出掩膜自增策略迭代预测特征,降低Transformer同时预测大范围未知区域特征的难度;最后引入对抗学习提升绘制图像逼真度.结果 实验给出在多种数据集下内补与外推对比评测,结果显示本文方法各项性能指标均超越对比方法.通过消融实验发现,模型相比采用非分解方式具有更佳表现,说明分而治之思路功效显著.此外,对掩膜自增策略进行详细的实验分析,表明迭代预测方法可有效提升绘制能力.最后,探究了Transformer关键结构参数对模型性能的影响.结论 本文提出一种迭代预测统一框架解决图像内补与外推问题,相较对比方法性能更佳,并且各部分设计对性能提升均有贡献,显示了迭代预测统一框架及方法在图像内补与外推问题上的应用价值与潜力.

    图像内补图像外推分而治之迭代预测Transformer卷积神经网络(CNN)

    面向元余弦损失的少样本图像分类

    陶鹏冯林杜彦东龚勋...
    506-519页
    查看更多>>摘要:目的 度量学习是少样本学习中一种简单且有效的方法,学习一个丰富、具有判别性和泛化性强的嵌入空间是度量学习方法实现优秀分类效果的关键.本文从样本自身的特征以及特征在嵌入空间中的分布出发,结合全局与局部数据增强实现了一种元余弦损失的少样本图像分类方法(a meta-cosine loss for few-shot image classification,AMCL-FSIC).方法 首先,从数据自身特征出发,将全局与局部的数据增广方法结合起来,利于局部信息提供更具区别性和迁移性的信息,使训练模型更多关注图像的前景信息.同时,利用注意力机制结合全局与局部特征,以得到更丰富更具判别性的特征.其次,从样本特征在嵌入空间中的分布出发,提出一种元余弦损失(meta-cosine loss,MCL)函数,优化少样本图像分类模型.使用样本与类原型间相似性的差调整不同类的原型,扩大类间距,使模型测试新任务时类间距更加明显,提升模型的泛化能力.结果 分别在5个少样本经典数据集上进行了实验对比,在FC100(Few-shot Cifar100)和CUB(Caltech-UCSD Birds-200-2011)数据集上,本文方法均达到了目前最优分类效果;在MiniImageNet、TieredImageNet和Cifar100数据集上与对比模型的结果相当.同时,在MiniImageNet,CUB和Cifar100数据集上进行对比实验以验证MCL的有效性,结果证明提出的MCL提升了余弦分类器的分类效果.结论 本文方法能充分提取少样本图像分类任务中的图像特征,有效提升度量学习在少样本图像分类中的准确率.

    元学习少样本学习(FSL)度量学习元余弦损失(MCL)图像分类

    结合空间结构卷积和注意力机制的三维点云分类网络

    武斌刘溢安赵洁
    520-532页
    查看更多>>摘要:目的 三维点云分类作为一项关键任务,在计算机视觉、机器人和自动驾驶等领域有着广泛的应用场景.现有的三维点云分类网络在使用边卷积进行局部特征提取时通常存在输入特征差异性小,空间结构信息提取、融合不充分等问题.针对上述问题,设计了一种结合空间结构卷积和注意力机制的点云分类网络.方法 首先,提出一种空间结构卷积,在边卷积的基础上引入邻接点之间的相对位置信息来降低输入特征相似性,而后从结构和位置两个角度分别进行特征编码,实现更具多样性的局部几何结构捕获.其次,设计了全局特征编码模块,从坐标信息中提炼全局特征信息,同时在网络中融合了注意力机制,用于关联局部和全局特征表示,有效保留了全局特征信息,实现全局特征的适应性调整.最后,将局部几何结构信息和全局位置信息进行有效的融合,获得更具代表性和差异性的特征表征.结果 设计实验在公开数据集ModelNet40上对提出的网络模型的性能进行评估,点云分类总体准确率和平均准确率分别达到93.0%和89.7%,具备良好的分类性能和预测效率.实验结果表明,空间结构卷积的使用有效增加了输入特征的多样性,位置和结构的单独编码有效提高了局部特征的表达能力.同时,提出的注意力加权方式在保留全局特征前提下实现了局部特征和全局特征的关联.结论 提出的网络有较强的细粒度特征提取能力,具有良好的分类性能.

    点云边卷积(EdgeConv)空间结构注意力机制分类

    结合关键点与引导向量的旋转目标检测网络

    佘浩东赵良瑾
    533-544页
    查看更多>>摘要:目的 目标检测是遥感智能解译中重要的研究方向之一,大多数目标检测算法难以实现密集排列的旋转目标的高精度检测.提出了一种基于关键点与引导向量预测的目标检测算法,实现高精度旋转目标检测的同时,还可对目标的朝向进行表征.方法 首先提出了一种新的旋转目标建模方式,将目标检测分解成中心点、头部顶点、引导向量以及目标宽度的参数回归以更贴合检测目标;其次设计旋转椭圆高斯核,能够更好地拟合遥感目标的形状,从而提升关键点的预测精度;最后通过预测中心点指向头部顶点的引导向量,完成同一个目标内中心点与头部顶点的匹配,从而生成一个精准的带方向的旋转矩形检测框.结果 在大长宽比舰船目标的HRSC(high-resolution ship collections)数据集上的实验结果表明,相比于其他主流的目标检测算法,本文算法获得了更好的检测结果,在VOC 2007(visual object classes)和VOC 2012的平均精度分别达到了90.78%和97.85%.在小长宽比飞机目标UCAS-AOD(UCAS-high resolution aerial object detection dataset)数据集上达到了98.81%的平均精度.实验结果表明了本文算法的可行性与有效性.结论 本文算法利用椭圆高斯核计算中心点与头部顶点,并设计引导向量对点匹配关系进行约束,实现了旋转目标的方向检测.

    目标检测深度学习旋转椭圆高斯核引导向量方向检测

    融合多重机制的SAR舰船检测

    肖振久林渤翰曲海成
    545-558页
    查看更多>>摘要:目的 针对合成孔径雷达(synthetic aperture radar,SAR)图像噪声大、成像特征不明显,尤其在复杂场景更容易出现目标误检和漏检的问题,提出了一种融合多重机制的SAR舰船检测方法,用于提高SAR舰船检测的精度.方法 在预处理部分,设计了U-Net Denoising模块,通过调整噪声方差参数L的范围来抑制相干斑噪声对图像的干扰.在OLOv7(you only look once v7)主干网络构建MLAN_SC(maxpooling layer aggregation network that incorporate select kernel and contextual Transformer)结构,加入SK(selective kernel)通道注意力机制至下采样阶段,增强关键信息提取能力和特征表达能力.为解决MP(multiple pooling)结构中上下分支特征不平衡的问题,改善误检情况,融入上下文信息提取模块(contextual Transformer block,COT),利用卷积提取上下文信息,将局部信息和全局信息结合起来,使图像特征能够更有效地提取出来.在头部引入SPD卷积(space-to-depth convolution,SPD-Conv),增强小目标的检测能力.用WIoU(wise intersection over union)损失函数替换 CIoU(complete intersection over union)损失函数,运用动态聚焦机制,在复杂图像上加强对目标的定位能力.结果 在SSDD(SAR ship detection dataset)数据集和HRSID(high-resolution SAR images dataset)数据集上进行了实验对比,结果表明,改进后的方法相比于YOLOv7,AP(average precision)可达到99.25%和89.73%,分别提升了4.38%和2.57%,准确率和召回率为98.41%,93.24%和94.79%,81.83%,优于对比方法.结论 本文通过融合多重机制改进YOLOv7方法,提升了对目标的定位能力,显著改善了SAR舰船检测中复杂舰船的误检和漏检情况,进一步提高了 SAR舰船检测精度.

    SAR图像舰船检测YOLOv7注意力机制上下文信息提取SPD卷积(SPD-Conv)WIoU损失函数