首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    融合视觉词与自注意力机制的视频目标分割

    季传俊陈亚当车洵
    2444-2457页
    查看更多>>摘要:目的 视频目标分割(video object segmentation,VOS)是在给定初始帧的目标掩码条件下,实现对整个视频序列中感兴趣对象的分割,但是视频中往往会出现目标形状不规则、背景中存在干扰信息和运动速度过快等情况,影响视频目标分割质量.对此,本文提出一种融合视觉词和自注意力机制的视频目标分割算法.方法 对于参考帧,首先将其图像输入编码器中,提取分辨率为原图像1/8的像素特征.然后将该特征输入由若干卷积核构成的嵌入空间中,并将其结果上采样至原始尺寸.最后结合参考帧的目标掩码信息,通过聚类算法对嵌入空间中的像素进行聚类分簇,形成用于表示目标对象的视觉词.对于目标帧,首先将其图像通过编码器并输入嵌入空间中,通过单词匹配操作用参考帧生成的视觉词来表示嵌入空间中的像素,并获得多个相似图.然后,对相似图应用自注意力机制捕获全局依赖关系,最后取通道方向上的最大值作为预测结果.为了解决目标对象的外观变化和视觉词失配的问题,提出在线更新机制和全局校正机制以进一步提高准确率.结果 实验结果表明,本文方法在视频目标分割数据集DAVIS(densely annotated video segmentation)2016和DAVIS 2017上取得了有竞争力的结果,区域相似度与轮廓精度之间的平均值J&F-mean(Jaccard and F-score mean)分别为83.2%和72.3%.结论 本文提出的算法可以有效地处理由遮挡、变形和视点变化等带来的干扰问题,实现高质量的视频目标分割.

    视频目标分割(VOS)聚类算法视觉词自注意力机制在线更新机制全局校正机制

    基于Gaussian-Hermite矩的旋转运动模糊不变量

    郭锐贾丽郝宏翔墨瀚林...
    2458-2472页
    查看更多>>摘要:目的 模糊图像的分析与识别是图像分析与识别领域的重要方向.有些图像形成过程中成像系统与物体之间存在相对旋转运动,如因导弹高速自旋转造成的制导图像的旋转运动模糊.大多数对于这类图像的识别都需要先对模糊图像进行"去模糊"的预处理,且该类方法存在计算时间复杂度较高及不适定的问题.对此,提出一种直接提取旋转运动模糊图像中的不变特征,用于旋转运动模糊图像目标检索和识别.方法 本文以旋转运动模糊的退化模型为出发点,提出了旋转运动模糊Gaussian-Hermite(GH)矩,构造了一组由5个对旋转变换和旋转运动模糊保持不变性的GH矩不变量组成的特征向量(rotational motion blur Gaussian-Hermite moment invariants,RMB_GH-MI-5),可从旋转变换和旋转运动模糊的图像中直接进行目标检索和识别,无需前置复杂的"去模糊"预处理过程.结果 在USC-SIPI(University of Southern California—Signal and Image Processing Institute)数据集上进行不变性实验,对原图进行不同程度的旋转变换叠加旋转运动模糊处理,证明RMB_GHMI-5对于旋转变换和旋转运动模糊具有良好的稳定性和不变性.在两个数据集上与同类4种方法进行图像检索实验比较,在80%召回率下,本文方法维数更少,相比性能第2的特征向量,在Flavia数据集中,高斯噪声、椒盐噪声、泊松噪声和乘性噪声干扰下的准确率分别提高25.89%、39.95%、22.79%和35.80%;在Butterfly Image数据集中,高斯噪声、椒盐噪声、泊松噪声和乘性噪声干扰下的准确率分别提高4.79、7.63%、5.65%和18.31%.同时,在上述8个测试数据集中进行对比实验以验证融合算法的有效性,结果表明本文提出的GH矩和几何矩相融合算法显著改善了图像检索效果.结论 本文提出的RMB_GHMI-5特征向量在旋转变换和旋转运动模糊下具有良好的不变性与稳定性,在图像检索抗噪性能方面表现优异.相比同类方法,本文方法更具实际应用价值.

    图像检索图像不变特征旋转运动模糊Gaussian-Hermite矩不变量

    RGB-D语义分割:深度信息的选择使用

    赵经阳余昌黔桑农
    2473-2486页
    查看更多>>摘要:目的 在室内场景语义分割任务中,深度信息会在一定程度上提高分割精度.但是如何更有效地利用深度信息仍是一个开放性问题.当前方法大都引入全部深度信息,然而将全部深度信息和视觉特征组合在一起可能对模型产生干扰,原因是仅依靠视觉特征网络模型就能区分的不同物体,在引入深度信息后可能产生错误判断.此外,卷积核固有的几何结构限制了卷积神经网络的建模能力,可变形卷积(deformable convolution,DC)在一定程度上缓解了这个问题.但是可变形卷积中产生位置偏移的视觉特征空间深度信息相对不足,限制了进一步发展.基于上述问题,本文提出一种深度信息引导的特征提取(depth guided feature extraction,DFE)模块.方法 深度信息引导的特征提取模块包括深度信息引导的特征选择模块(depth guided feature selection,DFS)和深度信息嵌入的可变形卷积模块(depth embedded deformable convolution,DDC).DFS可以筛选出关键的深度信息,自适应地调整深度信息引入视觉特征的比例,在网络模型需要时将深度信息嵌入视觉特征.DDC在额外深度信息的引入下,增强了可变形卷积的特征提取能力,可以根据物体形状提取更相关的特征.结果 为了验证方法的有效性,在NYUv2(New York University Depth Dataset V2)数据集上进行一系列消融实验并与当前最好的方法进行比较,使用平均交并比(mean intersection over union,mIoU)和平均像素准确率(pixel accuracy,PA)作为度量标准.结果 显示,在NYUv2数据集上,本文方法的mIoU和PA分别为51.9%和77.6%,实现了较好的分割效果.结论 本文提出的深度信息引导的特征提取模块,可以自适应地调整深度信息嵌入视觉特征的程度,更加合理地利用深度信息,且在深度信息的作用下提高可变形卷积的特征提取能力.此外,本文提出的深度信息引导的特征提取模块可以比较方便地嵌入当下流行的特征提取网络中,提高网络的建模能力.

    语义分割RGB-D深度信息引导的特征选择(DFS)深度信息嵌入的可变形卷积(DDC)深度信息引导的特征提取(DFE)

    自纠正噪声标签的人脸美丽预测

    甘俊英吴必诚翟懿奎何国辉...
    2487-2495页
    查看更多>>摘要:目的 人脸美丽预测是研究如何使计算机具有与人类相似的人脸美丽判断或预测能力,然而利用深度神经网络进行人脸美丽预测存在过度拟合噪声标签样本问题,从而影响深度神经网络的泛化性.因此,本文提出一种自纠正噪声标签方法用于人脸美丽预测.方法 该方法包括自训练教师模型机制和重标签再训练机制.自训练教师模型机制以自训练的方式获得教师模型,帮助学生模型进行干净样本选择和训练,直至学生模型泛化能力超过教师模型并成为新的教师模型,并不断重复该过程;重标签再训练机制通过比较最大预测概率和标签对应预测概率,从而纠正噪声标签.同时,利用纠正后的数据反复执行自训练教师模型机制.结果 在大规模人脸美丽数据库LSFBD(large scale facial beauty database)和SCUT-FBP5500数据库上进行实验.结果 表明,本文方法在人工合成噪声标签的条件下可降低噪声标签的负面影响,同时在原始LSFBD数据库和SCUT-FBP5500数据库上分别取得60.8%和75.5%的准确率,高于常规方法.结论 在人工合成噪声标签条件下的LSFBD和SCUT-FBP5500数据库以及原始LSFBD和SCUT-FBP5500数据库上的实验表明,所提自纠正噪声标签方法具有选择干净样本学习、充分利用全部数据的特点,可降低噪声标签的负面影响,能在一定程度上降低人脸美丽预测中噪声标签的负面影响,提高预测准确率.

    深度学习噪声标签人脸美丽预测特征分类深度神经网络

    面向非对称特征注意力和特征融合的太赫兹图像检测

    曾文健朱艳沈韬曾凯...
    2496-2505页
    查看更多>>摘要:目的 太赫兹由于穿透性强、对人体无害等特性在安检领域中得到了广泛关注.太赫兹图像中目标尺寸较小、特征有限,且图像分辨率低,目标边缘信息模糊,目标信息容易和背景信息混淆,为太赫兹图像检测带来了一定困难.方法 本文在YOLO(you only look once)算法的基础上提出了一种融合非对称特征注意力和特征融合的目标检测网络AFA-YOLO(asymmetric feature attention-YOLO).在特征提取网络CSPDarkNet53(cross stage paritial DarkNet53)中设计了非对称特征注意力模块.该模块在浅层网络中采用非对称卷积强化了网络的特征提取能力,帮助网络模型在目标特征有限的太赫兹图像中提取到更有效的目标信息;使用通道注意力和空间注意力机制使网络更加关注图像中目标的重要信息,抑制与目标无关的背景信息;AFA-YOLO通过增加网络中低层到高层的信息传输路径对高层特征进行特征融合,充分利用到低层高分辨率特征进行小目标的检测.结果 本文在太赫兹数据集上进行了相关实验,相比原YOLOv4算法,AFA-YOLO对phone的检测精度为81.15%,提升了4.12%,knife的检测精度为83.06%,提升了3.72%.模型平均精度均值(mean average precision,mAP)为82.36%,提升了3.92%,漏警率(missing alarm,MA)为12.78%,降低了2.65%,帧率为32.26帧/s,降低了4.06帧/s.同时,本文在太赫兹数据集上对比了不同的检测算法,综合检测速度、检测精度和漏警率,AFA-YOLO优于其他目标检测算法.结论 本文提出的AFA-YOLO算法在保证实时性检测的同时有效提升了太赫兹图像中目标的检测精度并降低了漏警率.

    太赫兹图像小尺度目标检测YOLOv4非对称卷积注意力机制特征融合

    面向纹理平滑的方向性滤波尺度预测模型

    林俊彦刘春晓章金凯李泓易...
    2506-2515页
    查看更多>>摘要:目的 传统图像处理的纹理滤波方法难以区分梯度较强的纹理与物体的结构,而深度学习方法使用的训练集生成方式不够合理,且模型表示方式比较粗糙,为此本文设计了一种面向纹理平滑的方向性滤波尺度预测模型,并生成了含有标签的新的纹理滤波数据集.方法 在现有结构图像中逐连通区域填充多种纹理图,生成有利于模型训练的纹理滤波数据集.设计了方向性滤波尺度预测模型,该模型包含尺度感知子网络和图像平滑子网络.前者预测得到的滤波尺度图不但体现了该像素与周围像素是否为同一纹理,而且还隐含了该像素是否为结构像素的信息.后者以滤波尺度图和原图的堆叠作为输入,凭借少量的卷积层快速得出纹理滤波的结果.结果 在本文的纹理滤波数据集上与7个算法进行比较,峰值信噪比(peak signal to noise ratio,PSNR)与结构相似度(struc-tural similarity,SSIM)分别高于第2名2.79 dB、0.0133,均方误差(mean squared error,MSE)低于第2名6.8638,运算速度快于第2名0.002 s.在其他数据集上的实验对比也显示出本文算法更好地保持结构与平滑纹理.通过比较不同数据集上训练的同一网络模型,证实了本文的纹理滤波数据集有助于增强模型对于强梯度纹理与物体结构的区分能力.结论 本文制作的纹理滤波数据集使模型更好地区分强梯度纹理与物体结构并增强模型的泛化能力.本文设计的方向性滤波尺度预测模型在性能上超越了已有的大多数纹理平滑方法,尤其在强梯度纹理的抑制和弱梯度结构的保持两个方面表现优异.

    深度学习图像平滑纹理滤波数据集生成U型网络(U-Net)

    多源特征自适应融合网络的高分遥感影像语义分割

    张文凯刘文杰孙显许光銮...
    2516-2526页
    查看更多>>摘要:目的 在高分辨率遥感影像语义分割任务中,仅利用可见光图像很难区分光谱特征相似的区域(如草坪和树、道路和建筑物),高程信息的引入可以显著改善分类结果.然而,可见光图像与高程数据的特征分布差异较大,简单的级联或相加的融合方式不能有效处理两种模态融合时的噪声,使得融合效果不佳.因此如何有效地融合多模态特征成为遥感语义分割的关键问题.针对这一问题,本文提出了一个多源特征自适应融合模型.方法 通过像素的目标类别以及上下文信息动态融合模态特征,减弱融合噪声影响,有效利用多模态数据的互补信息.该模型主要包含3个部分:双编码器负责提取光谱和高程模态的特征;模态自适应融合模块协同处理多模态特征,依据像素的目标类别以及上下文信息动态地利用高程信息强化光谱特征,使得网络可以针对特定的对象类别或者特定的空间位置来选择特定模态网络的特征信息;全局上下文聚合模块,从空间和通道角度进行全局上下文建模以获得更丰富的特征表示.结果 对实验结果进行定性、定量相结合的评价.定性结果中,本文算法获取的分割结果更加精细化.定量结果中,在ISPRS(International Society for Photogrammetry and Remote Sensing)Vaihingen和GID(Gaofen Image Dataset)数据集上对本文模型进行评估,分别达到了90.77%、82.1%的总体精度.与DeepLab V3+、PSPNet(pyramid scene parsing network)等算法相比,本文算法明显更优.结论 实验结果表明,本文提出的多源特征自适应融合网络可以有效地进行模态特征融合,更加高效地建模全局上下文关系,可以广泛应用于遥感领域.

    语义分割遥感影像多模态模态自适应融合全局上下文聚合

    结合上下文编码与特征融合的SAR图像分割

    范艺华董张玉杨学志
    2527-2536页
    查看更多>>摘要:目的 图像分割的中心任务是寻找更强大的特征表示,而合成孔径雷达(synthetic aperture radar,SAR)图像中斑点噪声阻碍特征提取.为加强对SAR图像特征的提取以及对特征充分利用,提出一种改进的全卷积分割网络.方法 该网络遵循编码器—解码器结构,主要包括上下文编码模块和特征融合模块两部分.上下文编码模块(contextual encoder module,CEM)通过捕获局部上下文和通道上下文信息增强对图像的特征提取;特征融合模块(feature fusion module,FFM)提取高层特征中的全局上下文信息,将其嵌入低层特征,然后将增强的低层特征并入解码网络,提升特征图分辨率恢复的准确性.结果 在两幅真实SAR图像上,采用5种基于全卷积神经网络的分割算法作为对比,并对CEM与CEM-FFM分别进行实验.结果 显示,该网络分割结果的总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)与Kappa系数比5种先进算法均有显著提升.其中,网络在OA上表现最好,CEM在两幅SAR图像上OA分别为91.082% 和90.903%,较对比算法中性能最优者分别提高了0.948% 和0.941%,证实了CEM的有效性.而CEM-FFM在CEM基础上又将结果分别提高了2.149% 和2.390%,验证了FFM的有效性.结论 本文提出的分割网络较其他方法对图像具有更强大的特征提取能力,且能更好地将低层特征中的空间信息与高层特征中的语义信息融合为一体,使得网络对特征的表征能力更强、图像分割结果更准确.

    图像分割全卷积神经网络(FCN)特征融合上下文信息合成孔径雷达(SAR)

    一阶全卷积遥感影像倾斜目标检测

    周院杨庆庆马强薛博维...
    2537-2548页
    查看更多>>摘要:目的 主流深度学习的目标检测技术对自然影像的识别精度依赖于锚框设置的好坏,并使用平行于坐标轴的正框表示物体位置,而遥感影像中地物目标具有尺寸多变、分布密集、长宽比悬殊且朝向不定的特点,更宜通过与物体朝向一致的斜框表示其位置.本文试图结合无锚框和斜框检测技术,在遥感影像上实现高精度目标识别.方法 使用斜框标注能够更为紧密地贴合目标边缘,有效减少识别干扰因素.本文基于单阶段无锚框目标检测算法:一阶全卷积目标检测网络(fully convolutional one-stage object detector,FCOS),通过引入滑动点结构,在遥感影像上实现高效率、高精度的斜框目标检测.与FCOS的不同之处在于,本文改进的检测算法增加了用于斜框检测的两个分支,通过在正框的两邻边上回归滑动顶点比率产生斜框,并预测斜框与正框的面积比以减少极端情况下的检测误差.结果 在当前最大、最复杂的斜框遥感目标检测数据集DOTA(object detection in aerial images)上对本文方法进行评测,使用ResNet50作为骨干网络,平均精确率(mean average precision,mAP)达到74.84%,相比原始正框FCOS算法精度提升了33.02%,相比于YOLOv3(you only look once)效率提升了38.82%,比斜框检测算法R3 Det(refined rotation RetinaNet)精度提升了1.53%.结论 实验结果说明改进的FCOS算法能够很好地适应高分辨率遥感倾斜目标识别场景.

    深度学习遥感影像无锚框特征提取多尺度特征融合倾斜目标检测