首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    多模态数据的行为识别综述

    王帅琛黄倩张云飞李兴...
    3139-3159页
    查看更多>>摘要:行为识别是当前计算机视觉方向中视频理解领域的重要研究课题.从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向.本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述.行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据.首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了 RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法.传统手工特征法包括基于时空体积和时空兴趣点的方法(RGB模态)、基于运动变化和外观的方法(深度模态)以及基于骨骼特征的方法(骨骼模态)等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点.基于不同模态的数据集分类进行不同行为识别技术的对比分析.通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优势.最后,总结了行为识别技术当前面临的问题和挑战,并基于数据模态的角度提出了未来可行的研究方向和研究重点.

    计算机视觉行为识别深度学习神经网络多模态模态融合

    肺腺癌CT影像分子分型研究进展

    卜菊聂生东魏珑
    3160-3171页
    查看更多>>摘要:研究表明在明确驱动基因后进行特异性靶向治疗,肺癌患者的中位生存期显著延长.而除高通量测序技术和荧光原位杂交等分子生物学技术外,影像基因组学的出现,也为肺腺癌分子分型预测提供了一种无创的新方法.本文对肺腺癌计算机断层扫描(computed tomography,CT)影像分子分型的研究进展进行综述.首先,介绍肺腺癌分子分型的研究背景及肺腺癌主要的基因突变类型;然后,重点介绍两种主要的研究方法,即CT语义特征与肺腺癌分子亚型的相关性分析和基于机器学习的肺腺癌分子分型预测模型;最后,总结了该领域现阶段面临的主要问题,并对未来的研究方向做出展望.肺腺癌CT影像分子分型研究已经取得了一定成果,但仍存在很多问题.相关性分析与基于影像组学的预测模型研究由于样本各异且受过多人为干预,导致研究结果差异大,甚至有部分文献得到的结论截然相反.而基于深度学习的预测模型研究采用端到端的神经网络模型,人为参与极少,降低了研究难度,但尚处于起步阶段,构建的模型大多相对简单,远不能达到临床应用标准.今后的研究应聚焦于结合多种医学图像构建肺腺癌分子分型的大样本深度学习预测模型,同时结合临床信息、语义特征及影像组学特征,实现肺腺癌分子分型的无创、精准预测.

    非小细胞肺癌腺癌分子分型影像基因组学计算机断层扫描(CT)

    面向低精度环境的安全高速批图像加密

    吴潇飞岑娟王振伟游大涛...
    3172-3184页
    查看更多>>摘要:目的 随着存在大量低性能电子设备的物联网系统迅速发展和普及,人们对低精度计算环境下安全高效的图像加密技术有着越来越迫切的需求.现有以混沌系统为代表的图像加密方法不仅加密速度普遍较低,而且在低精度计算环境下存在严重的安全缺陷,难以满足实际需求.针对上述问题,本文提出了一种基于素数模乘线性同余产生器的批图像加密方法,用以提升低精度环境下图像加密的效率和安全性.方法 该方法的核心是构建一个能在低精度环境下有效运行的素数模乘线性同余产生器;将图像集均分为3组,并借助异或运算生成3幅组合图像;接着引入图像集的哈希值更新上述第3组图像;将更新后的组合图像作为上述产生器的输入,进而生成一个加密序列矩阵;基于加密序列矩阵对明文图像进行置乱和扩散,并使用异或运算生成密文图像;使用具有较高安全性的改进版 2D-SCL(a new 2D hypher chaotic map based on the sine map,the chebysher map and a linear function)加密方法对加密序列矩阵进行加密.结果 仿真结果表明,本文提出的批图像加密方法在计算精度为2-8的情况下不仅能抵御各类攻击,而且加密速度相较于对比加密方法有所提升.而对比加密方法在上述计算精度环境下存在不能抵御相应攻击的情况.结论 本文提出的基于素数模乘线性同余产生器的批图像加密方法,不仅有效地解决了低计算精度环境下图像加密安全性低的问题,而且还大幅提升了图像的加密速度,为后续高效安全图像加密方法的研究提供了一个新的思路.

    批图像加密低精度安全性加密速度素数模乘线性同余产生器(PMMLCG)

    面向水下图像目标检测的退化特征增强算法

    钱晓琪刘伟峰张敬曹洋...
    3185-3198页
    查看更多>>摘要:目的 基于清晰图像训练的深度神经网络检测模型因为成像差异导致的域偏移问题使其难以直接泛化到水下场景.为了有效解决清晰图像和水下图像的特征偏移问题,提出一种即插即用的特征增强模块(feature de-drifting module Unet,FDM-Unet).方法 首先提出一种基于成像模型的水下图像合成方法,从真实水下图像中估计色偏颜色和亮度,从清晰图像估计得到场景深度信息,根据改进的光照散射模型将清晰图像合成为具有真实感的水下图像.然后,借鉴U-Net结构,设计了一个轻量的特征增强模块FDM-Unet.在清晰图像和对应的合成水下图像对上,采用常见的清晰图像上预训练的检测器,提取它们对应的浅层特征,将水下图像对应的退化浅层特征输入FDM-Unet进行增强,并将增强之后的特征与清晰图像对应的特征计算均方误差(mean-square error,MSE)损失,从而监督FDM-Unet进行训练.最后,将训练好的FDM-Unet直接插入上述预训练的检测器的浅层位置,不需要对网络进行重新训练或微调,即可以直接处理水下图像目标检测.结果 实验结果表明,FDM-Unet在PASCAL VOC 2007(pattern analysis,statistical modeling and computational learning visual object classes 2007)合成水下图像测试集上,针对 YOLO v3(you only look once v3)和 SSD(single shot multibox detector)预训练检测器,检测精度 mAP(mean average precision)分别提高了 8.58%和 7.71%;在真实水下数据集 URPC19(underwater robot professional con-test 19)上,使用不同比例的数据进行微调,相比YOLO v3和SSD,mAP分别提高了 4.4%~10.6%和3.9%~10.7%.结论 本文提出的特征增强模块FDM-Unet以增加极小的参数量和计算量为代价,不仅能直接提升预训练检测器在合成水下图像的检测精度,也能在提升在真实水下图像上微调后的检测精度.

    卷积神经网络(CNN)目标检测特征增强成像模型图像合成

    融合场景信息的图像美学属性评价

    李雷达段佳忱杨宇哲李亚乾...
    3199-3209页
    查看更多>>摘要:目的 图像美学属性评价可以提供丰富的美学要素,极大地增强图像美学的可解释性.然而现有的图像美学属性评价方法并没有考虑到图像场景类别的多样性,导致评价任务的性能不够理想.为此,本文提出一种深度多任务卷积神经网络(multi task convolutional neural network,MTCNN)模型,利用场景信息辅助图像的美学属性预测.方法 本文模型由双流深度残差网络组成,其中一支网络基于场景预测任务进行训练,以提取图像的场景特征;另一支网络提取图像的美学特征.然后融合这两种特征,通过多任务学习的方式进行训练,以预测图像的美学属性和整体美学分数.结果 为了验证模型的有效性,在图像美学属性数据集(aesthetics and attributes database,AADB)上进行实验验证.结果显示,在斯皮尔曼相关系数(Spearman rank-order correlation coefficient,SRCC)指标上,本文方法各美学属性预测的结果较其他方法的最优值平均提升了 6.1%,本文方法整体美学分数预测的结果较其他方法的最优值提升了 6.2%.结论 提出的图像美学属性预测方法,挖掘了图像中的场景语义与美学属性的耦合关系,有效地提高了图像美学属性及美学分数预测的准确率.

    图像美学评价美学属性深度卷积网络多任务学习场景分类

    融合门控自注意力机制的生成对抗网络视频异常检测

    刘成明薛然石磊李英豪...
    3210-3221页
    查看更多>>摘要:目的 视频异常行为检测是当前智能监控技术的研究热点之一,在社会安防领域具有重要应用.如何通过有效地对视频空间维度信息和时间维度信息建模来提高异常检测的精度仍是目前研究的难点.由于结构优势,生成对抗网络目前广泛应用于视频异常检测任务.针对传统生成对抗网络时空特征利用率低和检测效果差等问题,本文提出一种融合门控自注意力机制的生成对抗网络进行视频异常行为检测.方法 在生成对抗网络的生成网络U-net部分引入门控自注意力机制,逐层对采样过程中的特征图进行权重分配,融合U-net网络和门控自注意力机制的性能优势,抑制输入视频帧中与异常检测任务不相关背景区域的特征表达,突出任务中不同目标对象的相关特征表达,更有效地针对时空维度信息进行建模.采用LiteFlownet网络对视频流中的运动信息进行提取,以保证视频序列之间的连续性.同时,加入强度损失函数、梯度损失函数和运动损失函数加强模型检测的稳定性,以实现对视频异常行为的检测.结果 在 CUHK(Chinese University of Hong Kong)Avenue、UCSD(University of Califor-nia,San Diego)Ped1和UCSD Ped2等视频异常事件数据集上进行实验.在CUHK Avenue数据集中,本文方法的AUC(area under curve)为87.2%,比同类方法高2.3%;在UCSD Ped1和UCSD Ped2数据集中,本文方法的AUC值均高于同类其他方法.同时,设计了 4个消融实验并对实验结果进行对比分析,本文方法具有更高的AUC值.结论 实验结果表明,本文方法更适合视频异常检测任务,有效提高了异常行为检测任务模型的稳定性和准确率,且采用视频序列帧间运动信息能够显著提升异常行为检测性能.

    视频异常检测生成对抗网络(GAN)U-net门控自注意力机制光流网络

    基于隔级交叉特征融合的输电线螺栓缺销检测

    赵文清徐敏夫
    3222-3231页
    查看更多>>摘要:目的 螺栓销钉是输电线路中至关重要的连接部件,螺栓的销钉缺失会导致输电线路中关键部件解体,甚至造成大规模停电事故.螺栓缺销检测属于小目标检测问题,由于其尺寸较小且背景复杂,现有的目标检测算法针对螺栓缺销的检测效果较差.为了提升输电线路中螺栓缺销的检测效果,本文以SSD(single shot multibox detec-tor)算法为基础,提出了基于隔级交叉自适应特征融合的输电线路螺栓缺销检测方法.方法 在建立了螺栓缺销故障检测数据集后,首先在SSD网络中加入隔级交叉特征金字塔结构,增强特征图的视觉信息和语义信息;其次,引入自适应特征融合机制进行特征图二次融合,不同尺度的特征图以自适应学习到的权重进行加权特征融合,有效提升螺栓缺销的检测效果;最后,对原始的SSD网络中的先验框尺寸进行调整,使其大小和长宽比更加适合螺栓目标.结果 实验结果表明,本文方法在正常螺栓类的检测精度达到87.93%,螺栓缺销类的检测精度达到89.15%.与原始的SSD网络相比,检测精度分别提升了 2.71%和3.99%.结论 本文方法针对螺栓缺销故障的检测精度较高,较原始SSD网络的检测精度有明显提升,与其他方法相比也有一定优势.为后续进一步提升螺栓缺销的检测精度以及对输电线路中其他部件的识别检测工作奠定了良好的基础.

    螺栓缺销单阶段框检测(SSD)隔级交叉特征金字塔自适应特征融合先验框优化

    检测器和分类器级联的飞机发动机损伤检测

    黄睿段博坤陈望叶清池...
    3232-3242页
    查看更多>>摘要:目的 基于深度学习的飞机发动机损伤检测是计算机视觉中的一个新问题.当前的目标检测方法没有考虑飞机发动机损伤检测问题的特殊性,将其直接用于发动机损伤检测的效果较差,无法满足实际使用的要求.为了提高损伤检测的精度,提出检测器和分类器级联的发动机损伤检测方法:Cascade-YOLO(cascade-you only look once).方法 首先,将损伤区域作为正例、正常区域作为负例,训练损伤检测网络,初始化特征提取网络的网络参数;其次,固定特征提取网络,使用多个检测头分别检测不同类型的发动机损伤,每个检测头独立进行检测,从而提高单类别损伤的检测召回率;最后,对于置信度在一定范围内的损伤,训练一个多分类判别器,用于校正检测头输出的损伤类别.基于检测结果,利用语义分割分支可以准确分割出损伤区域.结果 构建了一个具有1 305幅且包含9种损伤类型的孔探图像数据集,并在该数据集上量化、对比了 6个先进的目标检测方法.本文方法的平均精确率(mean average precision,MAP)、准确率、召回率相比单阶段检测器YOLO v5分别提高了 2.49%、12.59%和12.46%.结论 本文提出的检测器和分类器级联的发动机损伤检测模型通过对每类缺陷针对性地训练单独的检测头,充分考虑了不同缺陷间的分布差异,在提高召回率的同时提升了检测精度.同时该模型易于扩展类别,并可以快速应用于分割任务,符合实际的应用需求.

    损伤检测孔探图像级联检测飞机发动机YOLO(youonlylookonce)

    结合语义辅助和边缘特征的显著对象检测

    代胜选许林峰刘芳瑜贺斌...
    3243-3256页
    查看更多>>摘要:目的 现有的显著对象检测模型能够很好地定位显著对象,但是在获得完整均匀的对象和保留清晰边缘的任务上存在不足.为了得到整体均匀和边缘清晰的显著对象,本文提出了结合语义辅助和边缘特征的显著对象检测模型.方法 模型利用设计的语义辅助特征融合模块优化骨干网的侧向输出特征,每层特征通过语义辅助选择性融合相邻的低层特征,获得足够的结构信息并增强显著区域的特征强度,进而检测出整体均匀的显著对象.通过设计的边缘分支网络以及显著对象特征得到精确的边缘特征,将边缘特征融合到显著对象特征中,加强特征中显著对象边缘区域的可区分性,以便检测出清晰的边缘.同时,本文设计了一个双向多尺度模块来提取网络中的多尺度信息.结果 在 4 种常用的数据集 ECSSD(extended complex scene saliency dataset)、DUT-O(Dalian Univer-sity of Technology and OMRON Corporation)、HKU-IS和DUTS上与12种较流行的显著模型进行比较,本文模型的最大 F 值度量(max F-measure,MaxF)和平均绝对误差(mean absolution error,MAE)分别是 0.940、0.795、0.929、0.870和0.041、0.057、0.034、0.043.从实验结果看,本文方法得到的显著图更接近真值图,在MaxF和MAE上取得最佳性能的次数多于其他12种方法.结论 本文提出的结合语义辅助和边缘特征的显著对象检测模型十分有效.语义辅助特征融合和边缘特征的引入使检测出的显著对象更为完整均匀,对象的边缘区分性也更强,多尺度特征提取进一步改善了显著对象的检测效果.

    显著对象检测全卷积神经网络语义辅助边缘特征融合多尺度提取

    时空特征融合网络的多目标跟踪与分割

    刘雨亭张开华樊佳庆刘青山...
    3257-3266页
    查看更多>>摘要:目的 多目标跟踪与分割是计算机视觉领域一个重要的研究方向.现有方法多是借鉴多目标跟踪领域先检测然后进行跟踪与分割的思路,这类方法对重要特征信息的关注不足,难以处理目标遮挡等问题.为了解决上述问题,本文提出一种基于时空特征融合的多目标跟踪与分割模型,利用空间三坐标注意力模块和时间压缩自注意力模块选择出显著特征,以此达到优异的多目标跟踪与分割性能.方法 本文网络由2D编码器和3D解码器构成,首先将多幅连续帧图像输入到2D编码层,提取出不同分辨率的图像特征,然后从低分辨率的特征开始通过空间三坐标注意力模块得到重要的空间特征,通过时间压缩自注意力模块获得含有关键帧信息的时间特征,再将两者与原始特征融合,然后与较高分辨率的特征共同输入3D卷积层,反复聚合不同层次的特征,以此得到融合多次的既有关键时间信息又有重要空间信息的特征,最后得到跟踪和分割结果.结果 实验在YouTube-VIS(YouTube video instance segmentation)和 KITTI MOTS(multi-object tracking and segmentation)两个数据集上进行定量评估.在YouTube-VIS数据集中,相比于性能第2的CompFeat模型,本文方法的AP(average precision)值提高了 0.2%.在KITTI MOTS数据集中,相比于性能第2的STEm-Seg模型,在汽车类上,本文方法的ID switch指标减少了 9;在行人类上,本文方法的 sMOTSA(soft multi-object tracking and segmentation accuracy)、MOTS A(multi-object tracking and seg-mentation accuracy)和 MOTSP(multi-object tracking and segmentation precision)分别提高了 0.7%、0.6%和 0.9%,ID switch指标减少了 1.在KITTI MOTS数据集中进行消融实验,验证空间三坐标注意力模块和时间压缩自注意力模块的有效性,消融实验结果表明提出的算法改善了多目标跟踪与分割的效果.结论 提出的多目标跟踪与分割模型充分挖掘多帧图像之间的特征信息,使多目标跟踪与分割的结果更加精准.

    深度学习多目标跟踪与分割(MOTS)3D卷积神经网络特征融合注意力机制