首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    提取全局语义信息的场景图生成算法

    段静雯闵卫东杨子元张煜...
    2214-2225页
    查看更多>>摘要:目的 场景图能够简洁且结构化地描述图像.现有场景图生成方法重点关注图像的视觉特征,忽视了数据集中丰富的语义信息.同时,受到数据集长尾分布的影响,大多数方法不能很好地对出现概率较小的三元组进行推理,而是趋于得到高频三元组.另外,现有大多数方法都采用相同的网络结构来推理目标和关系类别,不具有针对性.为了解决上述问题,本文提出一种提取全局语义信息的场景图生成算法.方法 网络由语义编码、特征编码、目标推断以及关系推理等4个模块组成.语义编码模块从图像区域描述中提取语义信息并计算全局统计知识,融合得到鲁棒的全局语义信息来辅助不常见三元组的推理.目标编码模块提取图像的视觉特征.目标推断和关系推理模块采用不同的特征融合方法,分别利用门控图神经网络和门控循环单元进行特征学习.在此基础上,在全局统计知识的辅助下进行目标类别和关系类别推理.最后利用解析器构造场景图,进而结构化地描述图像.结果 在公开的视觉基因组数据集上与其他10种方法进行比较,分别实现关系分类、场景图元素分类和场景图生成这3个任务,在限制和不限制每对目标只有一种关系的条件下,平均召回率分别达到了44.2%和55.3%.在可视化实验中,相比性能第2的方法,本文方法增强了不常见关系类别的推理能力,同时改善了目标类别与常见关系的推理能力.结论 本文算法能够提高不常见三元组的推理能力,同时对于常见的三元组也具有较好的推理能力,能够有效地生成场景图.

    场景图全局语义信息目标推断关系推理图像理解

    融合弱监督目标定位的细粒度小样本学习

    贺小箭林金福
    2226-2239页
    查看更多>>摘要:目的 小样本学习旨在通过一幅或几幅图像来学习全新的类别.目前许多小样本学习方法基于图像的全局表征,可以很好地实现常规小样本图像分类任务.但是,细粒度图像分类需要依赖局部的图像特征,而基于全局表征的方法无法有效地获取图像的局部特征,导致很多小样本学习方法不能很好地处理细粒度小样本图像分类问题.为此,提出一种融合弱监督目标定位的细粒度小样本学习方法.方法 在数据量有限的情况下,目标定位是一个有效的方法,能直接提供最具区分性的区域.受此启发,提出了一个基于自注意力的互补定位模块来实现弱监督目标定位,生成筛选掩膜进行特征描述子的筛选.基于筛选的特征描述子,设计了一种语义对齐距离来度量图像最具区分性区域的相关性,进而完成细粒度小样本图像分类.结果 在miniImageNet数据集上,本文方法在1-shot和5-shot下的分类精度相较性能第2的方法高出0.56%和5.02%.在细粒度数据集Stanford Dogs和Stan-ford Cars数据集上,本文方法在1-shot和5-shot下的分类精度相较性能第2的方法分别提高了4.18%,7.49%和16.13,5.17%.在CUB 200-2011(Caltech-UCSD birds)数据集中,本文方法在5-shot下的分类精度相较性能第2的方法提升了1.82%.泛化性实验也显示出本文方法可以更好地同时处理常规小样本学习和细粒度小样本学习.此外,可视化结果显示出所提出的弱监督目标定位模块可以更完整地定位出目标.结论 融合弱监督目标定位的细粒度小样本学习方法显著提高了细粒度小样本图像分类的性能,而且可以同时处理常规的和细粒度的小样本图像分类.

    弱监督目标定位(WSOL)小样本学习(FSL)细粒度图像分类细粒度小样本学习特征描述子

    结合双注意力机制的道路裂缝检测

    张志华温亚楠慕号伟杜小平...
    2240-2250页
    查看更多>>摘要:目的 道路裂缝检测旨在识别和定位裂缝对象,是保障道路安全的关键问题之一.为解决传统深度神经网络在检测背景较复杂、干扰较大的裂缝图像时精度较低的问题,设计了一种基于双注意力机制的深度学习道路裂缝检测网络.方法 本文提出了在骨干网络中融入空洞卷积和两种注意力机制的方法,将其中的轻量型注意力机制与残差模块结合为残差注意力模块Res-A.对比研究了该模块"串联"和"并联"两种方式对于裂缝特征关系权重的影响并获得最佳连接.同时,引入Non-Local计算模式的注意力机制,通过挖掘特征图谱的关系权重以提高裂缝检测性能.结合两种注意力机制可以有效解决复杂背景下道路裂缝难检测的问题,提高了道路裂缝检测精度.结果 在公开复杂道路裂缝数据集Crack500上进行对比实验与验证.为证明本文网络的有效性,将平均交并比(mean intersection over union,mIoU)、像素精确度(pixel accuracy,PA)和训练迭代时间作为评价指标,并进行了3组对比实验.第1组实验用于评价残差注意力模块中通道注意力机制和空间注意力机制之间不同组合方式的检测性能,结果表明这两种机制并联相加时的mIoU和PA分别为79.28%和93.88%,比其他两种组合方式分别提高了2.11%和2.08%、11.29%和0.23%.第2组实验用于评价残差注意力模块的有效性,结果表明添加残差注意力模块时的mIoU和PA分别比不添加时高出2.34%和3.01%.第3组实验用于对比本文网络和其他典型网络的检测性能.结果 表明,本文网络的mIoU和PA分别比FCN(fully convolutional network)、PSPNet(pyramid scene parsing network)、ICNet(image cascade network)、PSANet(point-wise spatial attention network)和DenseASPP(dense atrous spa-tial pyramid pooling)高出7.67% 和2.94%、1.54% 和0.42%、6.51% 和3.34%、7.76% 和2.13%、7.70% 和-1.59%.实验结果表明本文网络的mIoU和PA优于典型的深度神经网络.结论 本文使用带空洞卷积的Res-Net-101网络结合双注意力机制,在保持特征图分辨率并且提高感受野的同时,能够更好地适应背景复杂、干扰较多的裂缝对象.

    深度学习残差网络双注意力机制道路裂缝检测Crack500数据集

    融合神经网络的布料碰撞检测算法

    靳雁霞马博贾瑶陈治旭...
    2251-2262页
    查看更多>>摘要:目的 针对当前在虚拟环境中布料柔体碰撞检测效率慢和准确性低的问题,提出一种根节点双层包围盒树结构和融合OpenNN(open neural networks library)神经网络加速预测碰撞检测的算法.方法 首先改进了碰撞检测常用的包围盒技术,提出根节点双层包围盒算法,减少包围盒的构造时间.其次使用神经网络优化碰撞检测技术,利用神经网络可以处理大量数据的优势,每次可以检测大量基本图元是否发生碰撞,解决了碰撞检测计算复杂性高的问题.最后准确地找到碰撞粒子并做出碰撞响应.结果 在相同的复杂布料模型情况下,根节点双层包围盒算法在运行速度上比传统混合包围盒算法快,耗时缩减了5.51%~11.32%.基于OpenNN算法的总耗时比根节点双层包围盒缩减了11.70%,比融合DNN(deep neural network)的自碰撞检测算法减少了6.62%.随着碰撞检测难度的增大,当布料模型的精度增加84%时,传统物理碰撞检测方法用时增加96%,融合DNN的自碰撞检测算法用时增加90.11%,而本文基于神经网络的算法用时仅增加了68.37%,同时表现出更高的稳定性,满足使用者对实时性的要求.结论 对于模拟场景中简单模型的碰撞,本文提出的根节点双层包围盒算法比传统的包围盒方法耗时短.对于复杂模型,基于OpenNN神经网络的碰撞检测算法在效率上优于传统的包围盒算法和融合DNN的自碰撞检查算法,而且模拟效果的准确性也得以保证,是一种高效的碰撞检测方法.

    碰撞检测布料模拟神经网络轴对齐包围盒(AABB)双层包围盒

    双分支特征融合网络的步态识别算法

    徐硕郑锋唐俊鲍文霞...
    2263-2273页
    查看更多>>摘要:目的 在步态识别算法中,基于外观的方法准确率高且易于实施,但对外观变化敏感;基于模型的方法对外观变化更加鲁棒,但建模困难且准确率较低.为了使步态识别算法在获得高准确率的同时对外观变化具有更好的鲁棒性,提出了一种双分支网络融合外观特征和姿态特征,以结合两种方法的优点.方法 双分支网络模型包含外观和姿态两条分支,外观分支采用GaitSet网络从轮廓图像中提取外观特征;姿态分支采用5层卷积网络从姿态骨架中提取姿态特征.在此基础上构建特征融合模块,融合外观特征和姿态特征,并引入通道注意力机制实现任意尺寸的特征融合,设计的模块结构使其能够在融合过程中抑制特征中的噪声.最后将融合后的步态特征应用于识别行人身份.结果 实验在CASIA-B(Institute of Automation,Chinese Academy of Sciences,Gait Dataset B)数据集上通过跨视角和不同行走状态两种实验设置与目前主流的步态识别算法进行对比,并以Rank-1准确率作为评价指标.在跨视角实验设置的MT(medium-sample training)划分中,该算法在3种行走状态下的准确率分别为93.4%、84.8%和70.9%,相比性能第2的算法分别提升了1.4%、0.5%和8.4%;在不同行走状态实验设置中,该算法在两种行走状态下的准确率分别为94.9%和90.0%,获得了最佳性能.结论 在能够同时获取外观数据和姿态数据的场景下,该算法能够有效地融合外观信息和姿态信息,在获得更丰富的步态特征的同时降低了外观变化对步态特征的影响,提高了步态识别的性能.

    生物特征识别步态识别特征融合双分支网络SE模块人体姿态估计步态轮廓图像

    问题引导的空间关系图推理视觉问答模型

    兰红张蒲芬
    2274-2286页
    查看更多>>摘要:目的 现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳.对此,本文针对需要空间关系推理的视觉问答问题,提出利用视觉对象之间空间关系属性结构化建模图像,构建问题引导的空间关系图推理视觉问答模型.方法 利用显著性注意力,用Faster R-CNN(region-based convolutional neural network)提取图像中显著的视觉对象和视觉特征;对图像中的视觉对象及其空间关系结构化建模为空间关系图;利用问题引导的聚焦式注意力进行基于问题的空间关系推理.聚焦式注意力分为节点注意力和边注意力,分别用于发现与问题相关的视觉对象和空间关系;利用节点注意力和边注意力权重构造门控图推理网络,通过门控图推理网络的信息传递机制和控制特征信息的聚合,获得节点的深度交互信息,学习得到具有空间感知的视觉特征表示,达到基于问题的空间关系推理;将具有空间关系感知的图像特征和问题特征进行多模态融合,预测出正确答案.结果 模型在VQA(visual question answering)v2数据集上进行训练、验证和测试.实验结果表明,本文模型相比于Prior、Language only、MCB(multimodal compact bilinear)、ReasonNet和Bottom-Up等模型,在各项准确率方面有明显提升.相比于ReasonNet模型,本文模型总体的回答准确率提升2.73%,是否问题准确率提升4.41%,计数问题准确率提升5.37%,其他问题准确率提升0.65%.本文还进行了消融实验,验证了方法的有效性.结论 提出的问题引导的空间关系图推理视觉问答模型能够较好地将问题文本信息和图像目标区域及对象关系进行匹配,特别是对于需要空间关系推理的问题,模型展现出较强的推理能力.

    视觉问答(VQA)图卷积神经网络(GCN)注意力机制空间关系推理多模态学习

    结合扰动约束的低感知性对抗样本生成方法

    王杨曹铁勇杨吉斌郑云飞...
    2287-2299页
    查看更多>>摘要:目的 对抗样本是指在原始数据中添加细微干扰使深度模型输出错误结果的合成数据.视觉感知性和攻击成功率是评价对抗样本的两个关键指标.当前大多数对抗样本研究侧重于提升算法的攻击成功率,对视觉感知性的关注较少.为此,本文提出了一种低感知性对抗样本生成算法,构造的对抗样本在保证较高攻击成功率的情况下具有更低的视觉感知性.方法 提出在黑盒条件下通过约束对抗扰动的面积与空间分布以降低对抗样本视觉感知性的方法.利用卷积网络提取图像中对输出结果影响较大的关键区域作为约束,限定扰动的位置.之后结合带有自注意力机制的生成对抗网络在关键区域添加扰动,最终生成具有低感知性的对抗样本.结果 在3种公开分类数据集上与多种典型攻击方法进行比较,包括7种白盒算法FGSM(fast gradient sign method)、BIM(basic iter-ative method)、DeepFool、PerC-C&W(perceptual color distance C&W)、JSMA(Jacobian-based saliency map attacks)、APGD(auto projected gradient descent)、AutoAttack和2种黑盒算法OnePixel、AdvGAN(adversarial generative adversar-ial network).在攻击成功率(attack success rate,ASR)上,本文算法与对比算法处于同一水平.在客观视觉感知性对比中,本文算法较AdvGAN在低分辨率数据集上,均方误差(mean square error,MSE)值降低了42.1%,结构相似性值(structural similarity,SSIM)提升了8.4%;在中高分辨率数据集上,MSE值降低了72.7%,SSIM值提升了12.8%.与视觉感知性最好的对比算法DeepFool相比,在低分辨率数据集上,本文算法的MSE值降低了29.3%,SSIM值提升了0.8%.结论 本文分析了当前算法在视觉感知性上存在的问题,提出了一种对抗样本生成方法,在攻击成功率近似的情况下显著降低了对抗样本的视觉感知性.

    对抗样本视觉感知性对抗扰动生成对抗网络(GAN)黑盒攻击

    动态书法墨迹的可回溯感评测

    律睿慜梅莉琳昃跃峰晏涛...
    2300-2312页
    查看更多>>摘要:目的 可回溯感是艺术欣赏和临摹时产生的一种审美感受,即在审美过程中想象地再现原作的创作行为,是书法艺术凸显的审美心理现象.在计算机书法的研究中,鲜有研究以动画效果增强书法可回溯感,且缺少关于可回溯感的量化评估方法.因此,本文结合心理感知实验提出可回溯感的测评方法,并探究动态墨迹效果对书法作品可回溯感的影响.方法 首先将可回溯感分解为两种心理因素:顺序感和运动感.然后针对动态书法形式应用粒子动画制作7种不同墨迹效果,并设计心理感知实验对书法作品的可回溯感进行测量,即对选定标记点的运笔顺序进行排列以及对其运笔方向和相对速率进行估计.最后比较原作和动态书法可回溯感的差异,分析动态墨迹对书法作品可回溯感的影响.结果 实验结果证明测评方法是可行的,并发现恰当运用动态墨迹效果,即沿笔迹流动的墨迹动画,可以改进作品的运动感、显著增强顺序感以及提升可回溯感,反之则不能.若混入逆向流动墨迹效果,会削弱其提升顺序感的效用,但减弱的程度与正逆向墨迹的比例并非线性关系.结论 运笔顺序和笔触运动感知的评测方法可以有效量化视觉艺术品的可回溯感,为书法欣赏和临摹过程的研究提供实证方法.动态墨迹的设计也可用于增进书法的艺术化呈现,特别是增强其可回溯感.

    可回溯感书法实证美学审美心理学心理感知动画特效