首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    网络监督数据下的细粒度图像识别综述

    魏秀参许玉燕杨健
    2057-2077页
    查看更多>>摘要:细粒度图像识别旨在对某一传统语义类别下细粒度级别的不同子类类别进行视觉识别,在智慧新经济和工业物联网等领域(如智慧城市、公共安全、生态保护、农业生产与安全保障)具有重要的科学意义和应用价值.细粒度图像识别在深度学习的助力下取得了长足进步,但其对大规模优质细粒度图像数据的依赖成为制约细粒度图像识别推广和普及的瓶颈.随着互联网和大数据的快速发展,网络监督图像数据作为免费的数据来源成为缓解深度学习对大数据依赖的可行解决方案,如何有效利用网络监督数据成为提升细粒度图像识别推广性和泛化性的热门课题.本文围绕细粒度图像识别主题,以网络监督数据下的细粒度识别为重点,先后对细粒度识别数据集、传统细粒度识别方法、网络监督下细粒度识别特点与方法进行介绍,并回顾了全球首届网络监督下的细粒度图像识别竞赛的相关情况及冠军解决方案.最后,在上述内容基础上总结和讨论了该领域的未来发展趋势.

    网络监督细粒度图像识别噪声数据长尾分布类间差异小综述

    海事监控视频舰船目标检测研究现状与展望

    叶晨逯天洋肖潏灏陆海...
    2078-2093页
    查看更多>>摘要:舰船目标检测是海域监控、港口流量统计、舰船身份识别以及行为分析与取证等智能海事应用的基石.随着我国海洋强国建设的推进,智慧航运和智慧海洋工程迅速发展,对通过海事监控视频开展有效的舰船目标检测识别以确保航运和海洋工程安全的需求日益紧迫.本文针对基于海事监控视频的舰船目标检测任务,回顾了舰船目标检测数据集及性能评价指标、基于传统机器学习和基于卷积神经网络的深度学习的目标检测方法等方面的国内外研究现状,分析了海洋环境中舰船目标检测任务面临的舰船目标尺度的多样性、舰船类别的多样性、海洋气象的复杂性、水面的动态性、相机的运动性和图像的低质量等技术难点,并通过实验验证,在多尺度特征融合、数据增广和能耗降低等方面提出了舰船目标检测的优化方法;同时,结合前人研究指出舰船目标检测数据集的发展应关注分类粒度的适宜性、标注的一致性和数据集的易扩充性,应加强对多尺度目标(尤其是小型目标)检测的模型结构的研究,为进一步提升舰船目标检测任务的综合性能,促进舰船目标检测技术的应用提供了新的思路.

    舰船目标检测海事监控数据集小目标检测数据增广卷积神经网络性能优化

    深度学习行人检测方法综述

    罗艳张重阳田永鸿郭捷...
    2094-2111页
    查看更多>>摘要:行人检测技术在智能交通系统、智能安防监控和智能机器人等领域均表现出了极高的应用价值,已经成为计算机视觉领域的重要研究方向之一.得益于深度学习的飞速发展,基于深度卷积神经网络的通用目标检测模型不断拓展应用到行人检测领域,并取得了良好的性能.但是由于行人目标内在的特殊性和复杂性,特别是考虑到复杂场景下的行人遮挡和尺度变化等问题,基于深度学习的行人检测方法也面临着精度及效率的严峻挑战.本文针对上述问题,以基于深度学习的行人检测技术为研究对象,在充分调研文献的基础上,分别从基于锚点框、基于无锚点框以及通用技术改进(例如损失函数改进、非极大值抑制方法等)3个角度,对行人检测算法进行详细划分,并针对性地选取具有代表性的方法进行详细结合和对比分析.本文总结了当前行人检测领域的通用数据集,从数据构成角度分析各数据集应用场景.同时讨论了各类算法在不同数据集上的性能表现,对比分析各算法在不同数据集中的优劣.最后,对行人检测中待解决的问题与未来的研究方法做出预测和展望.如何缓解遮挡导致的特征缺失问题、如何应对单一视角下尺度变化问题、如何提高检测器效率以及如何有效利用多模态信息提高行人检测精度,均是值得进一步研究的方向.

    行人检测深度学习卷积神经网络(CNN)遮挡目标检测小目标检测

    深度学习背景下视觉显著性物体检测综述

    王自全张永生于英闵杰...
    2112-2128页
    查看更多>>摘要:视觉显著性物体检测是对人类视觉和认知系统的模拟,而深度学习则是对人类大脑计算方式的模拟,将两者有机结合可以有效推动计算机视觉的发展.视觉显著性物体检测的任务是从图像中定位并提取具有明确轮廓的显著性物体实例.随着深度学习的发展,视觉显著性物体检测的精度和效率都得到巨大提升,但仍然面临改进主流算法性能、减少对像素级标注样本的依赖等主要挑战.针对上述挑战,本文从视觉显著性物体检测思想与深度学习方法融合策略的角度对相关论述进行分类总结.1)分析传统显著性物体检测方法带来的启示及其缺点,指出视觉显著性物体检测的核心思路为多层次特征的提取、融合与修整;2)从改进特征编码方式与信息传递结构、提升边缘定位精度、改善注意力机制、提升训练稳定性和控制噪声的角度对循环卷积神经网络、全卷积神经网络和生成对抗网络3种主流算法的性能提升进行分析,从优化弱监督样本处理模块的角度分析了减少对像素级标注样本依赖的方法;3)对协同显著性物体检测、多类别图像显著性物体检测以及未来的研究问题和方向进行介绍,并给出了可能的解决思路.

    显著性物体检测(SOD)深度学习循环卷积神经网络(RCNN)全卷积网络(FCN)注意力机制弱监督与多任务策略

    图像增强对显著性目标检测的影响研究

    郭继昌岳惠惠张怡刘迪...
    2129-2147页
    查看更多>>摘要:目的 雾霾、雨雪天气和水下等非理想环境因素会引起图像退化,导致出现低质图像,从而影响人类主观视觉感受及机器视觉应用任务的性能,因此,低质图像被利用之前进行图像增强成为惯常的预处理过程.然而,图像增强能否提高图像机器视觉应用任务的性能及影响程度等问题鲜有系统性研究.针对上述问题,本文以图像显著性目标检测这一机器视觉应用为例,研究图像增强对显著性目标检测性能的影响.方法 首先利用包括5种传统方法、6种深度学习方法等共11种典型图像增强方法对图像进行增强处理,然后利用8种典型的显著性目标检测方法对增强前后的图像分别进行显著性目标检测实验,并对比分析其结果.结果 实验表明,图像增强对低质图像显著性目标检测方法性能的促进作用不明显,某些增强方法甚至表现出负面影响,也存在同一增强方法对不同的显著性目标检测方法作用不同的现象.结论 图像增强对于显著性目标检测及其他的机器视觉应用的实际效果值得进一步研究,如何根据图像机器视觉应用的需求来选择和设计有效的增强方法需进一步探讨.

    水下图像雾霾图像图像增强显著性目标检测图像处理

    混合高斯变分自编码器的聚类网络

    陈华华陈哲郭春生应娜...
    2148-2156页
    查看更多>>摘要:目的 经典的聚类算法在处理高维数据时存在维数灾难等问题,使得计算成本大幅增加并且效果不佳.以自编码或变分自编码网络构建的聚类网络改善了聚类效果,但是自编码器提取的特征往往比较差,变分自编码器存在后验崩塌等问题,影响了聚类的结果.为此,本文提出了一种基于混合高斯变分自编码器的聚类网络.方法 使用混合高斯分布作为隐变量的先验分布构建变分自编码器,并以重建误差和隐变量先验与后验分布之间的KL散度(Kullback-Leibler divergence)构造自编码器的目标函数训练自编码网络;以训练获得的编码器对输入数据进行特征提取,结合聚类层构建聚类网络,以编码器隐层特征的软分配分布与软分配概率辅助目标分布之间的KL散度构建目标函数并训练聚类网络;变分自编码器采用卷积神经网络实现.结果 为了验证本文算法的有效性,在基准数据集MNIST(Modified National Institute of Standards and Technology Database)和Fashion-MNIST上评估了该网络的性能,聚类精度(accuracy,ACC)和标准互信息(normalized mutual information,NMI)指标在MNIST数据集上分别为95.86%和91%,在Fashion-MNIST数据集上分别为61.34%和62.5%,与现有方法相比性能有了不同程度的提升.结论 实验结果表明,本文网络取得了较好的聚类效果,且优于当前流行的多种聚类方法.

    聚类混合高斯分布变分自编码器(VAE)软分配KL散度

    基于半监督对抗学习的图像语义分割

    李志欣张佳吴璟莉马慧芳...
    2157-2170页
    查看更多>>摘要:目的 将半监督对抗学习应用于图像语义分割,可以有效减少训练过程中人工生成标记的数量.作为生成器的分割网络的卷积算子只具有局部感受域,因此对于图像不同区域之间的远程依赖关系只能通过多个卷积层或增加卷积核的大小进行建模,但这种做法也同时失去了使用局部卷积结构获得的计算效率.此外,生成对抗网络(generative adversarial network,GAN)中的另一个挑战是判别器的性能控制.在高维空间中,由判别器进行的密度比估计通常是不准确且不稳定的.为此,本文提出面向图像语义分割的半监督对抗学习方法.方法 在生成对抗网络的分割网络中附加两层自注意模块,在空间维度上对语义依赖关系进行建模.自注意模块通过对所有位置的特征进行加权求和,有选择地在每个位置聚合特征.因而能够在像素级正确标记值数据的基础上有效处理输入图像中广泛分离的空间区域之间的关系.同时,为解决提出的半监督对抗学习方法的稳定性问题,在训练过程中将谱归一化应用到对抗网络的判别器中,这种加权归一化方法不仅可以稳定判别器网络的训练,并且不需要对唯一的超参数进行密集调整即可获得满意性能,且实现简单,计算量少,即使在缺乏互补的正则化技术的情况下,谱归一化也可以比权重归一化和梯度损失更好地改善生成图像的质量.结果 实验在Cityscapes数据集及PASCAL VOC 2012(pattern analysis,statistical modeling and computational learning visual object classes)数据集上与9种方法进行比较.在Cityscapes数据集中,相比基线模型,性能提高了2.3%~3.2%.在PASCAL VOC 2012数据集中,性能比基线模型提高了1.4%~2.5%.同时,在PASCAL VOC 2012数据集上进行消融实验,可以看出本文方法的有效性.结论 本文提出的半监督对抗学习的语义分割方法,通过引入的自注意力机制捕获特征图上各像素之间的依赖关系,应用谱归一化增强对抗生成网络的稳定性,表现出了较好的鲁棒性和有效性.

    半监督学习卷积神经网络(CNN)图像语义分割生成对抗网络(GAN)自注意机制谱归一化

    面向大姿态人脸识别的正面化形变场学习

    胡蓝青阚美娜山世光陈熙霖...
    2171-2184页
    查看更多>>摘要:目的 人脸识别已经得到了广泛应用,但大姿态人脸识别问题仍未完美解决.已有方法或提取姿态鲁棒特征,或进行人脸姿态的正面化.其中主流的人脸正面化方法包括2D回归生成和3D模型形变建模,前者能够生成相对自然真实的人脸,但会引入额外的噪声导致图像信息的扭曲;后者能够保持原始的人脸结构信息,但生成过程是基于物理模型的,不够自然灵活.为此,结合2D和3D方法的优势,本文提出了基于由粗到细形变场的人脸正面化方法.方法 该形变场由深度网络以2D回归方式学得,反映的是不同视角人脸图像像素之间的语义级对应关系,可以类3D的方式实现非正面人脸图像的正面化,因此该方法兼具了2D正面化方法的灵活性与3D正面化方法的保真性,且借鉴分步渐进的思路,本文提出了由粗到细的形变场学习框架,以获得更加准确鲁棒的形变场.结果 本文采用大姿态人脸识别实验来验证本文方法的有效性,在MultiPIE(multi pose,illumination,expressions)、LFW(labeled faces in the wild)、CFP(celebrities in frontal-profile in the wild)、IJB-A(intelligence advanced research pro-jects activity Janus benchmark-A)等4个数据集上均取得了比已有方法更高的人脸识别精度.结论 本文提出的基于由粗到细的形变场学习的人脸正面化方法,综合了2D和3D人脸正面化方法的优点,使人脸正面化结果的学习更加灵活、准确,保持了更多有利于识别的身份信息.

    大姿态人脸识别人脸正面化可学习形变场由粗到细学习全卷积网络

    融合时空域特征的人脸表情识别

    陈拓邢帅杨文武金剑秋...
    2185-2198页
    查看更多>>摘要:目的 人脸表情识别是计算机视觉的核心问题之一.一方面,表情的产生对应着面部肌肉的一个连续动态变化过程,另一方面,该运动过程中的表情峰值帧通常包含了能够识别该表情的完整信息.大部分已有的人脸表情识别算法要么基于表情视频序列,要么基于单幅表情峰值图像.为此,提出了一种融合时域和空域特征的深度神经网络来分析和理解视频序列中的表情信息,以提升表情识别的性能.方法 该网络包含两个特征提取模块,分别用于学习单幅表情峰值图像中的表情静态"空域特征"和视频序列中的表情动态"时域特征".首先,提出了一种基于三元组的深度度量融合技术,通过在三元组损失函数中采用不同的阈值,从单幅表情峰值图像中学习得到多个不同的表情特征表示,并将它们组合在一起形成一个鲁棒的且更具辩识能力的表情"空域特征";其次,为了有效利用人脸关键组件的先验知识,准确提取人脸表情在时域上的运动特征,提出了基于人脸关键点轨迹的卷积神经网络,通过分析视频序列中的面部关键点轨迹,学习得到表情的动态"时域特征";最后,提出了一种微调融合策略,取得了最优的时域特征和空域特征融合效果.结果 该方法在3个基于视频序列的常用人脸表情数据集CK+(the extended Cohn-Kanade dataset)、MMI(the MMI facial expression database)和Oulu-CASIA(the Oulu-CASIA NIR&VIS facial expression database)上的识别准确率分别为98.46%、82.96%和87.12%,接近或超越了当前同类方法中的表情识别最高性能.结论 提出的融合时空特征的人脸表情识别网络鲁棒地分析和理解了视频序列中的面部表情空域和时域信息,有效提升了人脸表情的识别性能.

    人脸表情识别(FER)深度学习深度度量学习三元组损失特征融合

    非局部注意力双分支网络的跨模态赤足足迹检索

    鲍文霞茅丽丽王年唐俊...
    2199-2213页
    查看更多>>摘要:目的 针对目前足迹检索中存在的采集设备种类多样化、有效的足迹特征难以提取等问题,本文以赤足足迹图像为研究对象,提出一种基于非局部(non-local)注意力双分支网络的跨模态赤足足迹检索算法.方法 该网络由特征提取、特征嵌入以及双约束损失模块构成,其中特征提取模块采用双分支结构,各分支均以ResNet50作为基础网络分别提取光学和压力赤足图像的有效特征;同时在特征嵌入模块中通过参数共享学习一个多模态的共享空间,并引入非局部注意力机制快速捕获长范围依赖,获得更大感受野,专注足迹图像整体压力分布,在增强每个模态有用特征的同时突出了跨模态之间的共性特征;为了增大赤足足迹图像类间特征差异和减小类内特征差异,利用交叉熵损失LCE(cross-entropy loss)和三元组损失LTRI(triplet loss)对整个网络进行约束,以更好地学习跨模态共享特征,减小模态间的差异.结果 本文将采集的138人的光学赤足图像和压力赤足图像作为实验数据集,并将本文算法与细粒度跨模态检索方法FGC(fine-grained cross-model)和跨模态行人重识别方法HC(hetero-center)进行了对比实验,本文算法在光学到压力检索模式下的mAP(mean average precision)值和rank1值分别为83.63%和98.29%,在压力到光学检索模式下的mAP值和rank1值分别为84.27%和94.71%,两种检索模式下的mAP均值和rank1均值分别为83.95% 和96.5%,相较于FGC分别提高了40.01% 和36.50%,相较于HC分别提高了26.07%和19.32%.同时本文算法在non-local注意力机制、损失函数、特征嵌入模块后采用的池化方式等方面进行了对比分析,其结果证实了本文算法的有效性.结论 本文提出的跨模态赤足足迹检索算法取得了较高的精度,为现场足迹比对、鉴定等应用提供了研究基础.

    图像检索跨模态足迹检索非局部注意力机制双分支网络赤足足迹图像