首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    智能交通系统中的车辆标志识别方法综述

    李杨肖建力
    2650-2671页
    查看更多>>摘要:在智能交通系统中,车辆作为最普及的交通工具,常被不法分子利用,使其成为一种安全隐患,因此,实现监控设备下的车辆身份识别一直是一个研究热点。车辆标志(简称车标)是车辆的特殊身份,包含着车辆品牌制造商的基本信息,相比车牌、车型和车色,车标具有相对独立和可靠的特性。车辆标志识别能够快速、精准地缩小车辆查询范围,为案件侦破、交通自动化管理等有效降低搜索成本,因此车辆标志识别在车辆身份识别中尤其重要。本文对近十年内的主流车标识别方法进行了系统概述,为车标识别领域的后续研究者提供参考。1)简要阐述了在智能交通系统中车标识别技术的研究背景和重要性。2)根据车标识别过程中是否依赖手工提取特征,将目前国际主流的车标识别方法归纳为传统的车标识别方法和基于深度学习的车标识别方法,并分别总结了这两类方法的优劣。随后,分类、梳理和评价了这两类方法中现有的各种算法。3)针对车标数据集稀少导致难以评价各类算法性能、影响车标识别研究进展的问题,详细介绍了 3种公开车标数据集:XMU(Xiamen University Vehicle Logo Dataset)、HFUT-VL(Vehicle Logo Dataset from Hefei University of Technology)和 VLD-45(Vehicle Logo Dataset-45),并给出下载地址,可供研究者进行实验和测试。4)描述了 4种常用的评价指标,并在公开数据集上基于这些评价指标对车标识别方法开展实验,并对实验结果进行比较和分析。5)综述现有车标识别技术中存在的一些问题与挑战,对未来车标识别的研究方向做出预测和展望。

    智能交通系统(ITSs)车标识别特征提取图像分类深度学习综述

    面向文本识别的对抗样本攻击综述

    郭凯威杨奎武张万里胡学先...
    2672-2691页
    查看更多>>摘要:文本识别技术可以分为光学字符识别(optical character recognition,OCR)和场景文本识别(scene text recog-nition,STR),其中STR是在OCR基础上针对日益复杂的应用场景衍生出来的。依托深度学习,OCR技术近年来取得了长足进步并大规模商业落地,但深度学习面临的对抗样本攻击问题也给OCR带来了安全威胁。目前大多数OCR模型均存在识别自然扰动和防御对抗样本攻击能力差的问题,如OCR模型在噪声、水印和梯度等攻击算法下的识别准确率大大降低。相比图像领域,文本识别领域的对抗样本攻击研究还远远不够。文本识别通常被视为一个序列到序列的问题,其中输入(如图像中的像素)和输出(像素对应的字符)都是序列,这使得对抗样本的生成更具挑战性。本文对文本识别的对抗样本攻击和防御方法进行研究综述,梳理了近年来文本识别领域的对抗样本攻击方法并进行对比分析,根据攻击类型、应用场景和模型可知性,对攻击方式进行了系统分类。具体来说,按照攻击类型,可分为基于梯度的攻击、基于优化的攻击和基于生成模型的攻击;按照应用场景,可以分为OCR攻击和STR攻击;按照模型可知性,可分为白盒攻击和黑盒攻击。除了回顾文本识别对抗样本攻击方法,还简要介绍了防御技术,具体分为数据预处理、文本篡改检测和传统对抗防御技术。通过这些技术的应用,可以有效地提升文本识别模型的安全性和鲁棒性。最后,总结了文本识别领域对抗样本攻击及防御面临的挑战,并对未来发展方向做出展望。

    光学字符识别(OCR)场景文本识别(STR)对抗样本生成对抗网络(GAN)深度学习序列模型

    医学影像多血管和气道分割方法综述

    楼陆飞应俊杰蔡凯俊辛宇...
    2692-2715页
    查看更多>>摘要:医学影像分析中,血管和气道分割是备受关注的研究。通过对血管和气道异常的评估,例如动脉壁增厚和硬化、脑血管破裂导致的出血以及肺部或气道内的肿瘤等,可以实现此类疾病的早期诊断和临床治疗指导。随着医学成像技术的发展,影像分割技术在评估和诊断这些结构异常方面变得越来越重要。然而,由于其复杂的结构和病理变化,血管和气道的准确分割仍然是一项具有挑战性的任务。许多研究都集中在特定类型的血管或气道分割上,对多种类型的血管和气道分割方法的综合回顾相对缺乏。对各类血管和气道的综合回顾可以为医学专家和研究人员提供更全面的临床参考价值。此外,不同类型的血管和气道具有形态上的相似性,一些算法和技术可以同时应用于它们的分割中,综合回顾也增强了讨论的广泛性。因此,本文对近20年来具有代表性的视网膜血管分割、脑血管分割、冠状动脉分割和气道分割4类研究工作进行了归纳,分别从传统方法、机器学习方法和深度学习方法3个方面对每类研究进行综述,同时总结了各种方法的优缺点,为后续研究提供了理论参考。此外,本文还介绍了适用于医学影像血管和气道分割的损失函数、评价指标,并收集了目前公开的各类血管和气道分割数据集。最后,本文讨论了目前医学影像血管和气道分割方法的局限性以及未来研究的方向。

    深度学习医学影像分割视网膜血管分割脑血管分割冠状动脉分割气道分割图像处理

    跨视角图像地理定位方法综述

    盛怡宁赵理君张正崔绍龙...
    2716-2736页
    查看更多>>摘要:跨视角图像地理定位旨在通过图像匹配和地理坐标估计实现不同视角图像之间的准确对应和地理定位,广泛应用于机器人导航、自动驾驶和三维重建等领域。传统的单一视角图像地理定位方法通常受限于数据集质量和规模等因素,定位精度较低。为克服这些局限,近年来研究人员提出了一系列跨视角图像地理定位方法,同时利用多个视角的图像数据,通过视角比较和匹配提高定位精度。跨视角图像匹配方法呈现多元的分类体系。根据面向的跨视角图像类型的不同,可将其分为面向地面—卫星图像的方法与面向无人机—卫星图像的方法两类。根据图像特征提取与表达方式的不同,又可将其分为基于人工设计特征的方法与基于深度神经网络自学习特征的方法两类,对于后者,还可根据是否采用视角对齐方法以及所采用对齐方法的不同将其细分为无视角对齐处理的跨视角图像地理定位、基于传统图像变换的跨视角图像地理定位和基于图像生成的跨视角图像地理定位等3类。本综述对以上方法进行了介绍并比较了它们的优缺点;此外,还总结了常用于跨视角图像地理定位的数据集和评价方法;最后,展望了跨视角图像地理定位的应用领域和未来发展方向。尽管跨视角地理定位方法已取得突破和进展,但仍面临一些问题和挑战。因此,本综述提出了可能的解决方向和未来研究的重点,以期推动该领域的发展和创新。

    图像地理定位跨视角图像匹配深度学习表征学习视角转换

    改进YOLOv7的交通标志识别模型

    孟勃史伟大
    2737-2752页
    查看更多>>摘要:目的 随着自动驾驶和辅助驾驶的快速发展,交通标志识别研究变得越来越重要。但是现阶段交通标志识别算法对交通标志识别的精度较低,尤其在面对目标背景较为复杂、光照不足和小目标交通标志的场景时,更加容易出现错检和漏检情况。针对以上问题,提出了一种改进YOLOv7(you only look once version 7)的交通标志识别模型。方法 首先,采用空间金字塔池化快速跨级部分连接(spatial pyramid pooling fast cross stage partial concat,SPPFCSPC)方法,替换YOLOv7算法使用的空间金字塔池化跨级部分连接(spatial pyramid pooling cross stage partial concat,SPPCSPC)方法,提高算法的特征提取能力。其次,采用加权双向特征金字塔网络(bi-directional feature pyra-mid network,BiFPN),增强算法的多尺度特征融合能力。接着,采用一种新的框间距离度量的归一化Wasserstein距离(normalized Wasserstein distance,NWD)方法,解决传统的 IoU(intersection over union)度量对小目标交通标志检测过于敏感的问题。最后,使用特征内容的感知重组(content-aware reassembly of feature,CARAFE)算子,通过输入的特征,自适应生成上采样内核,有效地增加模型的感受域,更好地利用目标周边的信息,减少交通标志错检和漏检情况。结果 实验结果表明,在减少算法参数量的基础上,改进算法在TT100K交通标志数据集上的mAP@0。5和mAP@0。5∶0。9值分别达到了 92。50%和72。21%,较原始的YOLOv7算法分别提高了 3。24%和1。83%。同时,在具有小目标特性的CCTSDB交通标志数据集和整理的国外交通标志数据集上验证了模型改进的有效性。结论 通过实验验证和主客观评价,证明了本文改进算法的可行性,能够有效地对多种环境下的小目标交通标志进行识别,并在降低算法参数量的前提下,进一步提高了 YOLOv7算法对交通标志识别的平均精度。

    交通标志识别空间金字塔池化快速跨级部分连接(SPPFCSPC)加权双向特征金字塔网络(BiFPN)归一化Wasserstein距离(NWD)特征内容的感知重组(CARAFE)小目标

    双Gabor滤波器手掌静脉识别网络

    吴微张源林森陈希爱...
    2753-2763页
    查看更多>>摘要:目的 基于手掌静脉的身份识别需要在近红外光下采集手掌血管图像,安全性高。开放环境下的非接触式采集,相对于传统的将手掌放到采集箱体内固定栓上的采集方式更受用户欢迎。但开放环境带来的可见光干扰和非接触拍摄带来的图像旋转、平移、比例缩放、光照改变使得识别具有挑战性。针对以上两个难点,研究了一种基于非监督卷积神经网络的方法。方法 在卷积层中结合主成分分析(principal component analysis,PCA)滤波器提取主元信息,减少由于可见光引起的噪声影响;以固定尺寸Gabor滤波器为多尺度自适应Gabor滤波器提供先验知识,克服图像因几何与光照改变对识别产生的干扰,用以增强掌脉稳定特征,提升识别性能,再以二值化方式降低数据量,最后使用自适应K近邻(K-nearest neighbors,KNN)的变体分类器进行分类识别。结果 采用自建图库、同济图库和PolyU-NIR图库进行实验分析,在3个图库中的等误率分别为0。289 9%、0。2113%和0。158 6%,误拒率和误识率分别为0。002 7和2。318 8、0。002 3和1。282 1、0。000 0和1。596 2。结论 与传统方法以及经典网络方法相比,该方法能有效提高识别准确率,适用于对安全性要求较高的场合进行身份识别,具有实用价值。

    生物特征识别手掌静脉识别非接触近红外光图像卷积神经网络(CNN)

    图神经网络与CNN融合的虹膜特征编码方法

    孙金通沈文忠
    2764-2779页
    查看更多>>摘要:目的 更具可解释性的虹膜特征编码方法一直是虹膜识别中的一个关键问题,且低质量虹膜样本识别比较困难,图神经网络的发展为此类虹膜图像特征编码带来了新思路。本文提出了一种图神经网络与卷积神经网络融合的虹膜特征编码网络IrisFusionNet。方法 在骨干网络前添加一个像素级增强模块以消除输入图像不确定性,并使用双分支骨干网络提取虹膜微观与宏观融合特征。训练阶段使用一个独特的联合损失函数对网络参数进行优化;推理阶段使用融合特征匹配策略进行特征匹配。结果 实验结果表明:使用IrisFusionNet训练得到的特征提取器在多个公开低质量虹膜数据集上进行测试分别得到了 EER(equal error rate)和FAR@FRR=0。01%的最佳值0。27%与0。84%,并且将分离度DI(discriminating index)提升30%以上,识别准确性以及类聚性均远远领先于基于卷积神经网络和其他使用图神经网络模型的虹膜识别优秀算法。结论 本文提出的IrisFusionNet应用于虹膜识别任务具有极高的可行性和优越性。

    虹膜特征编码图神经网络(GNN)硬图注意力算子特征融合联合损失函数

    共性特征学习的高泛化伪造指纹检测

    袁程胜徐震宇向凌云付章杰...
    2780-2792页
    查看更多>>摘要:目的 指纹识别技术已大规模应用于人们的日常生活中,如身份鉴定、指纹支付与考勤等。然而,最新研究表明这些系统极易遭受伪造指纹的欺骗攻击,因此在使用指纹认证用户身份前,鉴别待测指纹的真伪至关重要。伪造指纹的制作材料具有多样性,现有工作忽视了不同材料伪造指纹之间数据分布的关联性,致使跨材料检测泛化性普遍较低。因此,本文通过分析不同材料伪造指纹数据间的分布关联性,挖掘不同伪造指纹间的材料域不变伪造特征,提出了一种基于共性特征学习的高泛化伪造指纹检测方法。方法 首先,为了表征和学习不同材料伪造指纹间的特征,设计了一种多尺度伪造特征提取器(multi-scale spoofing feature extractor,MSFE),包含一个多尺度空间通道(multi-scale spatial-channel,MSC)注意力模块,以学习真假指纹类间的细粒度差异特征。然后,为了进一步分析不同材料伪造指纹数据间的分布关联性,又构造了一种共性伪造特征提取器(common spoofing feature extractor,CSFE),在MSFE先验知识的引导下进行多任务的材料域不变伪造特征学习。最后,设计一个材料鉴别器对学习到的共性伪造特征进行约束,同时构建一个自适应联合优化损失模块来平衡多个模块在训练过程中的损失权重,以进一步提高面对未知材料伪造指纹检测时的泛化性。结果 在两个公开的指纹数据集(LivDet(liveness detection com-petition)2017和LivDet2019)上进行了跨材料测试,实验结果表明所提算法相较对比工作,ACE(average classification error)降低了 1。34%,TDR(true detection rate)提高了 1。43%,表现出较高的泛化性。结论 本文算法在ACE和TDR方面均取得优异性能。此外,当面对未知材料的伪造指纹检测时,同样表现出较强的泛化性。

    伪造指纹检测材料域不变伪造特征注意力共性特征学习泛化性

    面向功能性用户体验质量评估的脑网络构建方法

    牛一帆魏韬张远翟广涛...
    2793-2805页
    查看更多>>摘要:目的 新兴视频服务的功能参数设置将会直接影响到用户的认知状态,进一步影响用户体验质量,称为功能性用户体验质量(functional quality of experience,fQoE)。脑电信号蕴含丰富的大脑活动信息,能够揭示复杂脑活动中的脑网络模式,为fQoE提供可靠的评估依据。为此,本文首次提出了一个基于脑电的脑网络构建方法以评估fQoE,并研究fQoE背后的神经机制。方法 首先,通过改变功能参数诱发不同水平的fQoE,并同步收集脑电数据;然后,从脑电数据中提取单电极和多电极特征并以图结构进行融合,用以全面表征用户使用视频服务时的大脑状态;最后,使用基于自注意力图池化的脑网络构建模型来识别对fQoE敏感的脑网络,为fQoE提供可解释性,并进行分类以完成fQoE评估。结果 本文以弹幕视频服务的弹幕覆盖率这一功能参数为例验证了方法的科学性和可行性。实验表明,提出的评估方法在多种视频类型的fQoE评估中均达到了满意的效果,最佳识别准确率分别为86%(鬼畜类)、81%(科技类)、80%(舞蹈类)、82%(影视类)和84%(音乐类)。结论 来自fQoE相关的脑网络分析结果表明,额极、额中回、顶叶和颞叶的脑连接数量减少预示着观看弹幕视频的fQoE更高,即观看体验更好,同时也证明了功能参数通过影响人的脑状态进一步导致了fQoE的改变。本文的评估方法为fQoE的精确评估和视频服务功能参数的优化提供了来自神经生理学的定量工具和理论依据。

    新兴视频服务功能性用户体验质量(fQoE)脑电信号(EEG)脑网络构建

    SC-Net:用于重叠染色体分割的上下文信息跳跃连接网络

    焦润海褚佳杰刘嘉骥余济民...
    2806-2824页
    查看更多>>摘要:目的 染色体核型分析从细胞分裂中期图像中分离和分类染色体,是遗传疾病诊断广泛采用的方法,其中形态多样的重叠染色体簇的分割,依赖于准确的边界等细节特征。为此,本文融合目标的上下文信息,构建了一种两阶段的重叠染色体分割模型SC-Net(skip connection network)。方法 首先,在语义分割基线模型U-Net++中增加混合池化模块捕获重叠染色体的局部上下文信息,在解码器网络中并联上下文融合模块和上下文先验辅助分支,增强通道和空间上的全局上下文信息。其次,利用已标注样本的类别先验信息生成真实亲和矩阵,加入训练过程以有效区分重叠染色体图像中易混淆的空间信息。最后,通过染色体实例重建算法对重叠与非重叠区域的元素迭代进行配对,拼接形成单条染色体。结果 在公开的ChromSeg(chromosome segmentation)数据集上进行实验,结果表明SC-Net分割出的重叠染色体区域交并比值为83。5%,与对比算法中的较优算法相比性能提升2。7%。结论 本文构建的重叠染色体分割模型通过融合上下文信息,能更有效地解决形态多样的重叠染色体簇的分割问题,相比对比方法可以得到更精细和准确的结果。

    重叠染色体分割混合池化模块(HPM)上下文融合模块(CFM)上下文先验辅助分支(CPAB)真实亲和矩阵