首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    多域特征混合增强对抗样本迁移性方法

    万鹏胡聪吴小俊
    3670-3683页
    查看更多>>摘要:目的 对抗样本对深度神经网络(deep neural network,DNN)的安全性构成了重大威胁,此现象引起了广泛的关注。当前许多黑盒对抗攻击方法普遍存在一个问题:它们仅在空间域或频率域单一域中进行对抗攻击,生成的对抗样本无法充分利用目标模型在其他域中的潜在脆弱性,导致对抗样本的迁移性不佳。为此,提出一种多域特征混合增强对抗样本迁移性方法(multiple domain feature mixup,MDFM),以提高对抗样本在黑盒场景下的攻击成功率。方法 使用离散余弦变换将图像从空间域变换到频率域,存储原始图像的清洁频率域特征。然后利用逆离散余弦变换将图像转换回空间域。之后利用替代模型提取图像的清洁空间域特征。在生成对抗样本的过程中,通过在频率域和空间域中进行特征混合,最终生成迁移性更好的对抗样本。结果 在CIFAR-10和ImageNet数据集上进行了广泛实验,并对比了多种不同的攻击方法。在CIFAR-10数据集上,对不同模型的平均攻击成功率达到了89。8%。在ImageNet数据集上,分别使用ResNet-50和Inception-v3作为替代模型时,在不同的DNN模型上的平均攻击成功率达到75。9%和40。6%;当分别使用ResNet-50和adv-ResNet-50作为替代模型并在基于Transformer的模型上进行测试时,平均攻击成功率为32。3%和59。4%,超越了目前先进的黑盒对抗攻击方法。结论 多域特征混合增强对抗样本迁移性方法通过在空间域和频率域上进行特征混合,促使对抗样本利用多域中广泛的特征来克服清洁特征带来的干扰,从而提高对抗样本的迁移性。本文的代码可以在https://github。com/linghuchongl l lda/MDFM获取。

    对抗样本频率域特征混合黑盒对抗攻击深度神经网络(DNN)

    Co-history:协同学习中考虑历史信息的标签噪声鲁棒学习方法

    董永峰李佳伟王振贾文玉...
    3684-3698页
    查看更多>>摘要:目的 深度神经网络在计算机视觉分类任务上表现出优秀的性能,然而,在标签噪声环境下,深度学习模型面临着严峻的考验。基于协同学习(co-teaching)的学习算法能够有效缓解神经网络对噪声标签数据的学习问题,但仍然存在许多不足之处。为此,提出了一种协同学习中考虑历史信息的标签噪声鲁棒学习方法(Co-history)。方法 首先,针对在噪声标签环境下使用交叉熵损失函数(cross entropy,CE)存在的过拟合问题,通过分析样本损失的历史规律,提出了修正损失函数,在模型训练时减弱CE损失带来的过拟合带来的影响。其次,针对co-teaching算法中两个网络存在过早收敛的问题,提出差异损失函数,在训练过程中保持两个网络的差异性。最后,遵循小损失选择策略,通过结合样本历史损失,提出了新的样本选择方法,可以更加精准地选择干净样本。结果 在4个模拟噪声数据集 F-MNIST(Fashion-mixed National Institute of Standards and Technology)、SVHN(street view house number)、CIFAR-10(Canadian Institute for Advanced Research-10)和 CIFAR-100 和一个真实数据集 Clothing 1M 上进行对比实验。其中,在 F-MNIST、SVHN、CIFAR-10、CIFAR-100,对称噪声(symmetric)40%噪声率下,对比 co-teaching算法,本文方法分别提高了 3。52%、4。77%、6。16%和6。96%;在真实数据集Clothing1M下,对比co-teaching算法,本文方法的最佳准确率和最后准确率分别提高了0。94%和1。2%。结论 本文提出的协同学习下考虑历史损失的带噪声标签鲁棒分类算法,经过大量实验论证,可以有效降低噪声标签带来的影响,提高模型分类准确率。

    深度神经网络(DNN)分类噪声标签协同学习历史损失

    非视口依赖的抗畸变无参考全景图像质量评价

    鄢杰斌谭淄文吴康诚刘学林...
    3699-3711页
    查看更多>>摘要:目的 全景图像质量评价(omnidirectional image quality assessment,OIQA)旨在定量描述全景图像降质情况,对于算法提升和系统优化起着重要的作用。早期的O1QA方法设计思想主要是结合全景图像的几何特性(如两级畸变和语义分布不均匀)和2D-IQA方法,这类方法并未考虑用户的观看行为,因而性能一般;现有的O1QA方法主要通过模拟用户的观看行为,提取观看视口序列;进一步,计算视口序列失真情况,然后融合视口失真得到全景图像的全局质量。然而,观看视口序列预测较为困难,且预测模型的实时性和鲁棒性难以保证。为了解决上述问题,提出一种非视口依赖的抗畸变无参考(no reference,NR)OIQA(NR-OIQA)模型。针对全景图像等距柱状投影(equirect-angular projection,ERP)所带来的规律性几何畸变问题,提出一种可同时处理不规则语义和规律性畸变的新型卷积方法,称为等矩形可变形卷积方法,并基于该卷积方法构建NR-OIQA模型。方法 该模型主要由先验指导的图像块采样(prior-guided patch sampling,PPS)模块、抗畸变特征提取(deformation-unaware feature extraction,DUFE)模块和块内—块间注意力聚集(intra-inter patch attention aggregation,A-EPAA)模块3个部件组成。其中,PPS模块根据先验概率分布从高分辨率的全景图像采样提取相同分辨率的图像块;DUFE模块通过等矩形可变形卷积渐进式地提取输入图像块质量相关特征;A-EPAA模块旨在调整单个图像块内部特征以及各图像块对整体质量评价的影响程度,以提升模型对全景图像质量的评价准确度。结果 在3个公开数据集上将本文模型与其他IQA和O1QA模型进行性能比较,与性能第1的Assessor360相比,参数量减少了 93。7%,计算量减少了 95。4%;与模型规模近似的MC360IQA相比,在CVIQ、OIQA和JUFE数据集上的斯皮尔曼相关系数分别提升了 1。9%、1。7%和4。3%。结论 本文所提出的NR-OIQA模型,充分考虑了全景图像的特点,能够以不依赖视口的方式高效提取具有失真特性的质量特征,对全景图像进行准确质量评价,并具有计算量低的优点。

    图像质量评价(IQA)全景图像可变形卷积注意力机制无参考视口

    面向同胚异构骨骼运动重定向的高阶图卷积网络

    贾伟李骏李书杰赵洋...
    3712-3726页
    查看更多>>摘要:目的 骨骼运动重定向是指将源角色的骨骼运动数据,修改后运用到另一个具有不同骨架结构的目标角色上,使得目标角色和源角色做出相同的动作。由于骨骼运动数据与骨架结构之间具有高耦合性,重定向算法需要从运动数据中分离出与骨架结构无关、只表示动作类型的特征。当源角色与目标角色骨架结构不同,且两者运动模式(如关节角变化范围)存在较大差异时,特征分离难度加大,重定向网络训练难度变大。针对该问题,提出了特征分离的方法和高阶骨骼卷积算子。方法 在数据处理阶段,首先从运动数据中分离出一部分与骨架结构无关的特征,从而降低重定向网络训练难度,得到更好的重定向结果。另外,结合图卷积网络,本文针对人体骨架结构提出了高阶骨骼卷积算子。使用该算子,本文网络模型可以捕获更多有关骨架结构的信息,提高重定向结果的精度和视觉效果。结果 在异构重定向任务中,本文方法在合成动画数据集Mixamo上与最新方法对比,重定向结果精度提升了 38。6%。另外,本文方法也同样适用于同构重定向,结果精度比最新方法提升了 74。8%。在从真人采集的运动数据到虚拟动画角色的异构重定向任务中,相比最新方法,本文方法能够明显减少重定向错误,重定向结果有更高的视觉质量。结论 相比较于目前最新的方法,本文方法降低了特征分离的难度且更加充分挖掘了骨架的结构信息,使得重定向结果误差更低且动作更自然合理。

    深度学习运动重定向图卷积自编码器Human3.6M运动数据

    联邦学习中局部和全局偏移的联合动态校正算法

    戚银城霍亚琳王宁侯禹...
    3727-3738页
    查看更多>>摘要:目的 在联邦学习场景中,由于各客户端数据分布的不一致,会导致各客户端的局部目标之间偏差较大,以及全局平均模型偏离全局最优,影响模型训练的收敛速度和模型精度。针对非独立同分布数据导致的全局模型收敛缓慢以及模型准确率较低的问题,提出一种联合动态校正的联邦学习算法(federated learning algorithm for joint dynamic correction,FedJDC),分别从客户端和服务器端进行优化。方法 为了降低局部模型更新偏移的影响,定义累积偏移度来衡量各参与客户端的数据非独立同分布程度,并在本地损失函数中引入动态约束项,根据累积偏移度动态调整约束项大小,可自动适应不同程度的非独立同分布数据,减小局部模型的更新方向不一致性,从而提高模型准确率及通信效率;其次,针对全局模型聚合偏移,将参与客户端上传的累积偏移度作为全局模型聚合权重,从而动态更新全局模型,大幅减少通信轮数。结果 本文在3个真实数据集上的实验结果表明,与4种不同的联邦学习算法相比,在多种不同非独立同分布程度的情况下,FedJDC可以平均减少62。29%、20。90%、24。93%和20。47%的通信轮次,平均提高5。48%、1。62%、2。10%和2。28%的模型准确率。结论 本文提出的联邦学习中局部和全局偏移的联合动态校正算法从局部模型更新和全局模型聚合两方面进行改进,降低了通信轮次,提高了准确率,取得了良好的收敛效果。

    联邦学习(FL)非独立同分布(non-IID)损失函数模型聚合收敛性

    边缘特征增强与层次注意力融合的低重叠点云配准

    杨军孙鸿炜
    3739-3755页
    查看更多>>摘要:目的 针对目前基于深度学习的低重叠度点云配准方法在学习全局点云场景后进行特征匹配时,忽略局部特征间作用的问题,提出了一种结合边缘特征增强的层次注意力点云配准方法。方法 首先,利用边缘自适应核点卷积(edge adaptive kernel point convolution,EAKPConv)模块提取源点云、目标点云特征,增强边缘特征识别能力。然后,利用局部空间差异注意模块(local spatial contrast attention module,LSCAM)聚合局部空间差异捕捉点云的几何细节,利用序列相似度关联模块(sequential similarity association module,SSAM)计算量化两点云间的相似分数,并利用相似分数引导局部匹配。最后,通过LSCAM模块与SSAM模块结合的层次化注意力融合模块(hierarchical attention fusion module。HAFM)整合局部、全局特征,实现全局匹配。结果 在室内场景点云配准数据集3DMatch和三维模型数据集ModelNet-40上进行了对比实验,本算法在3DMatch和3DLoMatch上的配准召回率分别达到93。2%和67。3%;在ModelNet-40和ModelLoNet-40上取得了最低的旋转误差(分别为1。417和3。141)以及平移误差(分别为0。013 91和0。072)。此外,本文算法在推理效率上比REGTR算法减少了 10ms左右。结论 本文算法通过自底向上的层次化处理方式显著提升了有限重叠场景点云的配准精度,同时降低了推理时间。

    三维点云配准低重叠度点云边缘特征层次注意力局部相似匹配

    细粒度图像分类的自知识蒸馏学习

    张睿陈瑶王家宝李阳...
    3756-3769页
    查看更多>>摘要:目的 在无教师模型指导的条件下,自知识蒸馏方法可以让模型从自身学习知识来提升性能,但该类方法在解决细粒度图像分类任务时,因缺乏对图像判别性区域特征的有效提取导致蒸馏效果不理想。为了解决该问题,提出了一种融合高效通道注意力的细粒度图像分类自知识蒸馏学习方法。方法 首先,引入高效通道注意力(effi-cient channel attention,ECA)模块,设计了 ECA残差模块并构建ECA-ResNet18(residual network)轻量级骨干网,用以更好地提取图像判别性区域的多尺度特征;其次,构建了高效通道注意力加权双向特征金字塔ECA-BiFPN(bidirec-tional feature pyramid network)模块,用以融合不同尺度的特征,构建更加鲁棒的跨尺度特征;最后,提出了一种多级特征知识蒸馏损失,用以跨尺度特征对多尺度特征的蒸馏学习。结果 在Caltech-UCSD Birds 200、Stanford Cars和FGVC-Aircraft 3个公开数据集上,所提方法分别取得了 76。04%、91。11%和87。64%的分类精度,与已有15种自知识蒸馏方法中最佳方法的分类精度相比,分别提高了 2。63%、1。56%和3。66%。结论 所提方法具有高效提取图像判别性区域特征的能力,能获得更好的细粒度图像分类精度,其轻量化的网络模型适合于面向嵌入式设备的边缘计算应用。

    细粒度图像分类通道注意力知识蒸馏(KD)自知识蒸馏(SKD)特征融合卷积神经网络(CNN)轻量级模型

    多层级特征融合与双教师协作的知识蒸馏

    王硕余璐徐常胜
    3770-3785页
    查看更多>>摘要:目的 知识蒸馏旨在不影响原始模型性能的前提下,将一个性能强大且参数量也较大的教师模型的知识迁移到一个轻量级的学生模型上。在图像分类领域,以往的蒸馏方法大多聚焦于全局信息的提取而忽略了局部信息的重要性。并且这些方法多是围绕单教师架构蒸馏,忽视了学生可以同时向多名教师学习的潜力。因此,提出了一种融合全局和局部特征的双教师协作知识蒸馏框架。方法 首先随机初始化一个教师(临时教师)与学生处理全局信息进行同步训练,利用其临时的全局输出逐步帮助学生以最优路径接近教师的最终预测。同时又引入了一个预训练的教师(专家教师)处理局部信息。专家教师将局部特征输出分离为源类别知识和其他类别知识并分别转移给学生以提供较为全面的监督信息。结果 在CIFAR-100(Canadian Institute for Advanced Research)和Tiny-ImageNet数据集上进行实验并与其他蒸馏方法进行了比较。在CIFAR-100数据集中,与最近的NKD(normalized knowledge distillation)相比,在师生相同架构与不同架构下,平均分类准确率分别提高了 0。63%和1。00%。在Tiny-ImageNet 数据集中,ResNet34(residual network)和 MobileNetV 1 的师生组合下,分类准确率相较于 SRRL(knowledge distillation via softmax regression representation learning)提高了 1。09%,相较于 NKD提高了 1。06%。同时也在 CIFAR-100数据集中进行了消融实验和可视化分析以验证所提方法的有效性。结论 本文所提出的双教师协作知识蒸馏框架,融合了全局和局部特征,并将模型的输出响应分离为源类别知识和其他类别知识并分别转移给学生,使得学生模型的图像分类结果具有更高的准确率。

    知识蒸馏(KD)图像分类轻量级模型协作蒸馏特征融合

    具有细粒度感受野的多尺度融合口腔模型分割

    周新文朱洋葛峻沂潘钱家...
    3786-3799页
    查看更多>>摘要:目的 从口内扫描点云模型上精确分割牙齿是计算机辅助牙科治疗中重要的任务,但存在手动执行耗时且烦琐的问题。近年来,计算机视觉领域涌现出一些端到端的方法实现三维形状分割。然而,大多数方法没有注意到口腔分割需要网络具有更加细粒度的感受野,因此分割精度仍然受到限制。为了解决该问题,设计了一个端到端的具有细粒度感受野的全自动牙齿分割网络——TRNet,用于在未加工的口内扫描点云模型上自动分割牙齿。方法 首先,TRNet使用了具有细粒度感受野的编码器,其基于多尺度融合从不同的尺度提取到更全面的口腔模型特征,并通过更适合口腔模型分割的细粒度分组查询半径以及具有相对坐标归一化的特征提取层来提升分割性能。其次,TRNet采用了基于层级连接的特征嵌入方式,网络学习到口腔模型中由各个局部区域到覆盖更大范围空间的关键特征,特征提取更全面,提升了网络的分割精度。同时,TRNet使用了基于软性注意力机制的特征融合方式,使网络更好地从融合特征中关注到口腔模型的关键信息。结果 使用由口内扫描仪获取的患者口内扫描点云模型数据集评估了 TRNet。经过5折交叉验证的实验结果中,TRNet的总体准确率(overall accuracy,OA)达到了97。015±0。096%,平均交并比(mean intersection over union,mIoU)达到了 92。691±0。454%,显著优于现有方法。结论 实验结果表明,提出的具有细粒度感受野的多尺度融合口腔分割模型在口内扫描点云模型上取得了较好表现,提高了网络对于口腔模型的分割能力,使点云分割结果更准确。

    自动口腔模型分割点云细粒度感受野多尺度特征融合坐标归一化软性注意力机制

    多重注意力和级联上下文糖网病病灶分割

    郭燕飞杜杭丽杨成龙孔祥真...
    3800-3816页
    查看更多>>摘要:目的 糖尿病视网膜病变(糖网病)(diabetic retinopathy,DR)是人类致盲的首要杀手,自动准确的糖网病病灶分割对于糖网病分级和诊疗至关重要。然而,不同类型的糖网病病灶结构复杂,大小尺度不一致且存在类间相似性和类内差异性,导致同时准确分割多种病灶充满挑战。针对上述问题,提出一种基于多重注意力和级联上下文融合的糖网病多类型病灶分割方法。方法 首先,三重注意力模块提取病灶的通道注意力、空间注意力和像素点注意力特征并进行加法融合以保证病灶特征的一致性。另外,级联上下文特征融合模块采用自适应平均池化和非局部操作提取不同层网络的全局上下文信息以扩大病灶的感受野。最后,平衡注意力模块计算病灶前景、背景和边界注意力图,并利用挤压激励模块在特征通道之间加权以重新平衡3个区域的注意力,令网络更多关注病灶的边缘细节,实现精细化分割。结果 在国际公开的糖网病图像数据集DDR(dataset for diabetic retinopathy)、IDRiD(Indian diabetic retinopathy image dataset)和E-Ophtha进行充分的对比实验和消融实验,4种病灶分割的平均AUC(area under curve)分别达到0。679 0、0。750 3和0。660 1。结论 基于多重注意力和级联上下文融合的糖网病分割方法(multi-attention and cascaded context fusion network,MCFNet)能够克服其他眼底组织和病灶噪声的不良干扰,同时实现糖网病4种病灶的精准分割,具有较好的准确性和鲁棒性,为临床医生进行糖网病诊疗提供有力支持。

    糖尿病视网膜病变(DR)多病灶分割三重注意力级联上下文融合平衡注意力