首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    集成相异性准则与熵率超像素的图像分割模型

    顾安琪单昕昕文颖
    3267-3279页
    查看更多>>摘要:目的 高精度图像分割是生物医学图像处理中的一个重要问题.在磁共振成像过程中,噪声和强度不均匀很大程度影响图像分割的精度.因此,提出了一种基于相异性准则熵率超像素的多模态高精度图像分割网络.方法 采用熵率超像素分割算法对多模态图像进行预分割得到超像素块,提出新的融合算法对其重新编号,建立超像素图,该图中的每一个超像素块构成无向图的一个结点;利用每个结点的灰度值提取特征向量,通过相异性权重判断结点间的相关性,构建相邻结点的特征序列;将特征序列作为双向长短期记忆模型(bi-directional long short-term memory,BiLSTM)的输入,经过训练和测试,得到最终的分割结果.结果 本文方法在BrainWeb、MRBrainS和BraTS2017数据集上与主流算法进行了对比.在BrainWeb数据集上,本文方法的像素精度(pixel accuracy,PA)和骰子相似系数(Dice similarity coefficient,DSC)分别为 98.93%、97.71%,比 LSTM-MA(LSTM method with multi-modality and adjacency constraint)提升了 1.28%、2.8%.在 MRBrainS 数据集上,本文方法的 PA 为 92.46%,DSC 为84.74%,比LSTM-MA提升了 0.63%、1.44%.在BraTS2017数据集上,本文方法的PA和DSC上分别为98.80%,99.47%,也取得了满意的分割结果.结论 提出的分割网络在多模态图像分割应用中,获得了较好的分割结果,对图像强度不均匀和噪声有较好的鲁棒性.

    图像分割多模态超像素双向长短期记忆模型(BiLSTM)噪声鲁棒性

    结合姿态估计和时序分段网络分析的羽毛球视频动作识别

    陶树王美丽
    3280-3291页
    查看更多>>摘要:目的 为了满足羽毛球教练针对球员单打视频中的动作进行辅助分析,以及用户欣赏每种击球动作的视频集锦等多元化需求,提出一种在提取的羽毛球视频片段中对控球球员动作进行时域定位和分类的方法.方法在羽毛球视频片段上基于姿态估计方法检测球员执拍手臂,并根据手臂的挥动幅度变化特点定位击球动作时域,根据定位结果生成元视频.将通道—空间注意力机制引入时序分段网络,并通过网络训练实现对羽毛球动作的分类,分类结果包括正手击球、反手击球、头顶击球和挑球4种常见类型,同时基于图像形态学处理方法将头顶击球判别为高远球或杀球.结果 实验结果表明,本文对羽毛球视频片段中动作时域定位的交并比(intersection over union,IoU)值为82.6%,对羽毛球每种动作类别预测的AUC(area under curve)值均在0.98以上,平均召回率与平均查准率分别为91.2%和91.6%,能够有效针对羽毛球视频片段中的击球动作进行定位与分类,较好地实现对羽毛球动作的识别.结论 本文提出的基于羽毛球视频片段的动作识别方法,兼顾了羽毛球动作时域定位和动作分类,使羽毛球动作识别过程更为智能,对体育视频分析提供了重要的应用价值.

    姿态估计元视频羽毛球动作定位注意力机制—时序分段网络(CBAM-TSN)形态学处理羽毛球动作识别

    融合通道层注意力机制的多支路卷积网络抑郁症识别

    孙浩浩邵珠宏尚媛园孙晓妮...
    3292-3302页
    查看更多>>摘要:目的 抑郁症是一种常见的情感性精神障碍,会带来诸多情绪和身体问题.在实践中,临床医生主要通过面对面访谈并结合自身经验评估抑郁症的严重程度.这种诊断方式具有较强的主观性,整个过程比较耗时,且易造成误诊、漏诊.为了客观便捷地评估抑郁症的严重程度,本文围绕面部图像研究深度特征提取及其在抑郁症自动识别中的应用,基于人脸图像的全局和局部特征,构建一种融合通道层注意力机制的多支路卷积网络模型,进行抑郁症严重程度的自动识别.方法 首先从原始视频提取图像,使用多任务级联卷积神经网络检测人脸关键点.在对齐后分别裁剪出整幅人脸图像和眼睛、嘴部区域图像,然后将它们分别送入与通道层注意力机制结合的深度卷积神经网络以提取全局特征和局部特征.在训练时,将训练图像进行标准化预处理,并通过翻转、裁剪等操作增强数据.在特征融合层将3个支路网络提取的特征拼接在一起,最后输出抑郁症严重程度的分值.结果 在AVEC2013(The Continuous Audio/Visual Emotion and Depression Recognition Challenge)抑郁症数据库上平均绝对误差为6.74、均方根误差为8.70,相较于Baseline分别降低4.14和4.91;在AVEC2014抑郁症数据库上平均绝对误差和均方根误差分别为6.56和8.56,相较于Baseline分别降低2.30和2.30.同时,相较于其他抑郁症识别方法,本文方法取得了最低的平均绝对误差和均方根误差.结论 本文方法能够以端到端的形式实现抑郁症的自动识别,将特征提取和抑郁症严重程度识别在统一框架下进行和调优,学习到的多种视觉特征更加具有鉴别性,实验结果表明了该算法的有效性和可行性.

    抑郁症识别通道层注意力机制深度卷积神经网络特征融合空间权重

    分形理论引导的图像临界差异感知阈值估计

    郭嘉骏姜求平邵枫
    3303-3315页
    查看更多>>摘要:目的 图像的临界差异(just noticeable difference,JND)阈值估计对提升图像压缩比以及信息隐藏效率具有重要意义.亮度适应性和空域掩蔽效应是决定JND阈值大小的两大核心因素.现有的空域掩蔽模型主要考虑对比度掩蔽和纹理掩蔽两方面.然而,当前采用的纹理掩蔽模型不能有效地描述与纹理粗糙度相关的掩蔽效应对图像JND阈值的影响.对此,本文提出一种基于分形理论的JND阈值估计模型.方法 首先,考虑到人眼视觉系统对具有粗糙表面的图像内容变化具有较低的分辨能力,通过经典的分形理论来计算图像局部区域的分形维数,并以此作为对纹理粗糙度的度量,并在此基础上提出一种新的基于纹理粗糙度的纹理掩蔽模型.然后,将提出的纹理掩蔽模型与传统的亮度适应性相结合估计得到初步的JND阈值.最后,考虑到人眼的视觉注意机制,进一步考虑图像内容的视觉显著性,对JND阈值进行感知一致性修正,估计得到最终的JND阈值.结果 选取4种相关方法进行对比,结果表明,在注入相同甚至更多噪声的情况下,相较于对比方法中的最优结果,本文方法的平均VSI(visual saliency-induced index)和平均 MOS(mean opinion score)在 LIVE(Laboratory for Image&Video Engineering)图像库上分别提高了 0.001 7和50%,在TID2013(tampere image database 2013)图像库上分别提高了 0.001 9和40%,在 CSIQ(categorical subjective image quality)图像库上分别提高了 0.001 3 和 9.1%,在基于 VVC(versatile video coding)的JND图像库上分别提高了 0.000 3和54.5%.此外,作为另一典型应用,开展了感知冗余去除实验.实验结果表明,在保持视觉质量的前提下,经过本文JND模型平滑处理后的图像,其JPEG压缩图像相比于原图直接JPEG压缩得到的图像能节省12.5%的字节数.结论 本文提出的基于分形维数的纹理粗糙度能够有效刻画纹理掩蔽效应,构建的纹理掩蔽效应与传统的空域掩蔽效应相结合能够大幅提升图像JND阈值估计的准确性和可靠性.

    临界差异(JND)分形维数纹理粗糙度空域掩蔽纹理掩蔽

    信息分离和质量引导的红外与可见光图像融合

    徐涵梅晓光樊凡马泳...
    3316-3330页
    查看更多>>摘要:目的 红外与可见光图像融合的目标是将红外图像与可见光图像的互补信息进行融合,增强源图像中的细节场景信息.然而现有的深度学习方法通常人为定义源图像中需要保留的特征,降低了热目标在融合图像中的显著性.此外,特征的多样性和难解释性限制了融合规则的发展,现有的融合规则难以对源图像的特征进行充分保留.针对这两个问题,本文提出了一种基于特有信息分离和质量引导的红外与可见光图像融合算法.方法 本文提出了基于特有信息分离和质量引导融合策略的红外与可见光图像融合算法.设计基于神经网络的特有信息分离以将源图像客观地分解为共有信息和特有信息,对分解出的两部分分别使用特定的融合策略;设计权重编码器以学习质量引导的融合策略,将衡量融合图像质量的指标应用于提升融合策略的性能,权重编码器依据提取的特有信息生成对应权重.结果 实验在公开数据集RoadScene上与6种领先的红外与可见光图像融合算法进行了对比.此外,基于质量引导的融合策略也与4种常见的融合策略进行了比较.定性结果表明,本文算法使融合图像具备更显著的热目标、更丰富的场景信息和更多的信息量.在熵、标准差、差异相关和、互信息及相关系数等指标上,相较于对比算法中的最优结果分别提升了 0.508%、7.347%、14.849%、9.927%和1.281%.结论 与具有领先水平的红外与可见光算法以及现有的融合策略相比,本文融合算法基于特有信息分离和质量引导,融合结果具有更丰富的场景信息、更强的对比度,视觉效果更符合人眼的视觉特征.

    图像融合特有信息分离质量引导红外与可见光图像深度学习

    多尺度代价体信息共享的多视角立体重建网络

    刘万军王俊恺曲海成
    3331-3342页
    查看更多>>摘要:目的 多视角立体重建方法是3维视觉技术中的重要部分.相较于传统方法,基于深度学习的方法大幅减少重建所需时间,同时在重建完整性上也有所提升.然而,现有方法的特征提取效果一般和代价体之间的关联性较差,使得重建结果仍有可以提升的空间.针对以上问题,本文提出了一种双U-Net特征提取的多尺度代价体信息共享的多视角立体重建网络模型.方法 为了获得输入图像更加完整和准确的特征信息,设计了一个双U-Net特征提取模块,同时按照3个不同尺度构成由粗到细的级联结构输出特征;在代价体正则化阶段,设计了一个多尺度代价体信息共享的预处理模块,对小尺度代价体内的信息进行分离并传给下层代价体进行融合,由粗到细地进行深度图估计,使重建精度和完整度有大幅提升.结果 实验在DTU(Technical University of Denmark)数据集上与CasMVSNet相比,在准确度误差、完整度误差和整体性误差3个主要指标上分别提升约16.2%,6.5%和11.5%,相较于其他基于深度学习的方法更是有大幅度提升,并且在其他几个次要指标上也均有不同程度的提升.结论 提出的双U-Net提取多尺度代价体信息共享的多视角立体重建网络在特征提取和代价体正则化阶段均取得了效果,在重建精度上相比于原模型和其他方法都有一定的提升,验证了该方法的真实有效.

    3维重建深度学习多视角立体网络双U-Net网络特征提取代价体信息共享

    引入语义匹配和语言评价的跨语言图像描述

    张静郭丹宋培培李坤...
    3343-3355页
    查看更多>>摘要:目的 由于缺乏图像与目标语言域的成对数据,现有的跨语言描述方法都是基于轴(源)语言转化为目标语言,由于转化过程中的语义噪音干扰,生成的句子存在不够流畅以及与图像视觉内容关联弱等问题,为此,本文提出了一种引入语义匹配和语言评价的跨语言图像描述模型.方法 首先,选择基于编码器—解码器的图像描述基准网络框架.其次,为了兼顾图像及其轴语言所包含的语义知识,构建了一个源域语义匹配模块;为了学习目标语言域的语言习惯,还构建了一个目标语言域评价模块.基于上述两个模块,对图像描述模型进行语义匹配约束和语言指导:1)图像&轴语言域语义匹配模块通过将图像、轴语言描述以及目标语言描述映射到公共嵌入空间来衡量各自模态特征表示的语义一致性.2)目标语言域评价模块依据目标语言风格,对所生成的描述句子进行语言评分.结果 针对跨语言的英文图像描述任务,本文在MS COCO(Microsoft common objects in context)数据集上进行了测试.与性能较好的方法相比,本文方法在BLEU(bilingual evaluation understudy)-2、BLEU-3、BLEU-4和METEOR(metric for evaluation of translation with explicit ordering)等 4 个评价指标上的得分分别提升了 1.4%,1.0%,0.7%和 1.3%.针对跨语言的中文图像描述任务,本文在 AIC-ICC(image Chinese captioning from artificial intelligence challenge)数据集上进行了测试.与性能较好的方法相比,本文方法在BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR 和 CIDEr(consensus-based image description evaluation)等 6 个评价指标上的评分分别提升了 5.7%,2.0%,1.6%,1.3%,1.2%和3.4%.结论 本文模型中图像&轴语言域语义匹配模块引导模型学习了更丰富的语义知识,目标语言域评价模块约束模型生成更加流畅的句子,本文模型适用于跨语言图像描述生成任务.

    跨语言图像描述强化学习神经网络轴语言

    结合域适应学习的糖尿病视网膜病变分级诊断

    宋若仙曹鹏赵大哲
    3356-3370页
    查看更多>>摘要:目的 传统的糖尿病视网膜病变(糖网)(diabetic retinopathy,DR)依赖于早期病理特征的精确检测,但由于数据集缺乏病灶标记区域导致无法有效地建立监督性分类模型,引入其他辅助数据集又会出现跨域数据异质性问题;另外,现有的糖网诊断方法大多无法直观地从语义上解释医学模型预测的结果.基于此,本文提出一种端到端式结合域适应学习的糖网自动多分类方法,该方法协同注意力机制和弱监督学习加强优化.方法 首先,利用已标记病灶区域的辅助数据训练病灶检测模型,再将目标域数据集的糖网诊断转化为弱监督学习问题,依靠多分类预测结果指导深度跨域生成对抗网络模型,提升跨域的样本图像质量,用于微调病灶检测模型,进而过滤目标域中一些无关的病灶样本,提升多分类分级诊断性能.最后,在整体模型中融合注意力机制,从医学病理诊断角度提供可解释性支持其分类决策.结果 在公开数据集Messidor上进行糖网多分类评估实验,本文方法获得了 71.2%的平均准确率和80.8%的AUC(area under curve)值,相比于其他多种方法具有很大优势,可以辅助医生进行临床眼底筛查.结论 结合域适应学习的糖网分类方法在没有提供像素级病灶标注数据的情况下,只需要图像级监督信息就可以高效自动地对眼底图像实现分级诊断,从而避免医学图像中手工提取病灶特征的局限性和因疲劳可能造成漏诊或误诊问题,另外,为医生提供了与病理学相关的分类依据,获得了较好的分类效果.

    糖尿病视网膜病变(DR)眼底图像注意力机制深度学习弱监督学习域适应

    自监督学习下小样本遥感图像场景分类

    张睿杨义鑫李阳王家宝...
    3371-3381页
    查看更多>>摘要:目的 卷积神经网络(convolutional neural network,CNN)在遥感场景图像分类中广泛应用,但缺乏训练数据依然是不容忽视的问题.小样本遥感场景分类是指模型只需利用少量样本训练即可完成遥感场景图像分类任务.虽然现有基于元学习的小样本遥感场景图像分类方法可以摆脱大数据训练的依赖,但模型的泛化能力依然较弱.为了解决这一问题,本文提出一种基于自监督学习的小样本遥感场景图像分类方法来增加模型的泛化能力.方法 本文方法分为两个阶段.首先,使用元学习训练老师网络直到收敛;然后,双学生网络和老师网络对同一个输入进行预测.老师网络的预测结果会通过蒸馏损失指导双学生网络的训练.另外,在图像特征进入分类器之前,自监督对比学习通过度量同类样本的类中心距离,使模型学习到更明确的类间边界.两种自监督机制能够使模型学习到更丰富的类间关系,从而提高模型的泛化能力.结果 本文在NWPU-RESISC45(North Western Poly-technical University-remote sensing image scene classification)、AID(aerial image dataset)和 UCMerced LandUse(UC mer-ced land use dataset)3个数据集上进行实验.在5-way 1-shot条件下,本文方法的精度在3个数据集上分别达到了72.72%±0.15%、68.62%±0.76%和 68.21%±0.65%,比 Relation Net*模型分别提高了 4.43%、1.93%和0.68%.随着可用标签的增加,本文方法的提升作用依然能够保持,在5-way 5-shot条件下,本文方法的精度比Relation Net*分别提高3.89%、2.99%和1.25%.结论 本文方法可以使模型学习到更丰富的类内类间关系,有效提升小样本遥感场景图像分类模型的泛化能力.

    小样本学习遥感场景分类自监督学习蒸馏学习对比学习

    加强类别关系的农作物遥感图像语义分割

    董荣胜马雨琪刘意李凤英...
    3382-3394页
    查看更多>>摘要:目的 遥感图像处理技术在农作物规划、植被检测以及农用地监测等方面具有重要的作用.然而农作物遥感图像上存在类别不平衡的问题,部分样本中农作物类间相似度高、类内差异性大,使得农作物遥感图像的语义分割更具挑战性.为了解决这些问题,提出一种融合不同尺度类别关系的农作物遥感图像语义分割网络CRNet(class relation network).方法 该网络将ResNet-34作为编码器的主干网络提取图像特征,并采用特征金字塔结构融合高阶语义特征和低阶空间信息,增强网络对图像细节的处理能力.引入类别关系模块获取不同尺度的类别关系,利用一种新的类别特征加强注意力机制(class feature enhancement,CFE)结合通道注意力和加强位置信息的空间注意力,使得农作物类间的语义差异和农作物类内的相关性增大.在解码器中,将不同尺度的类别关系融合,增强了网络对不同尺度农作物特征的识别能力,从而提高了对农作物边界分割的精度.通过数据预处理、数据增强和类别平衡损失函数(class-balanced loss,CB loss)进一步缓解了农作物遥感图像中类别不平衡的问题.结果 在Barley Remote Sensing数据集上进行的实验表明,CRNet网络的平均交并比(mean intersection over union,MIoU)和总体分类精度(overall accuracy,OA)分别达到68.89%和82.59%,性能在评价指标和可视化效果上均优于PSPNet(pyramid scene parsing network)、FPN(feature pyramid network)、LinkNet、DeepLabv3+、FarSeg(foreground-aware rela-tion network)以及STLNet(statistical texture learning network).结论 CRNet网络通过类别关系模块,在遥感图像复杂的地物背景中更加精准地区分相似的不同农作物,识别特征差异大的同种农作物,并融合多级特征使得提取出的目标边界更加清晰完整,提高了分割精度.

    农作物遥感图像语义分割类别关系模块注意力机制类别平衡损失函数(CBloss)BarleyRemoteSens-ing数据集