首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    虚拟现实图像客观质量评价研究进展

    周玉汪一李雷达高陈强...
    2313-2328页
    查看更多>>摘要:随着科学技术的发展,虚拟现实(virtual reality,VR)技术逐渐渗透到医疗、教育、军事和娱乐等众多领域,并凭借在各个领域广阔的应用前景而受到广泛关注.鉴于视觉质量是决定VR技术能否成功应用的关键,且图像是VR应用最基础和最重要的视觉信息载体,VR图像质量评价已经成为质量评价领域的重要前沿性研究方向.与传统图像质量评价类似,VR图像质量评价可以分为主观质量评价和客观质量评价.由于客观质量评价相比主观质量评价具有成本低、稳定性高和应用范围广等优点,对VR图像客观质量评价的研究受到了国内外学者的高度重视.目前,关于VR图像客观质量评价的研究已经取得了一定进展,但是文献中缺少对该方向相关研究方法的综述.基于此,本文针对VR图像客观质量评价的研究进行概述.首先,对VR图像质量评价的研究现状进行分析.然后,重点对现有的VR图像客观质量评价模型进行综述.具体地,根据模型是否需要使用原始无失真图像信息作为参考,将现有的VR图像客观质量评价模型划分为全参考型和无参考型两大类.其中,全参考型方法进一步划分为基于峰值信噪比/结构相似度的方法和基于传统机器学习的方法.根据特征表达空间的不同,无参考型VR图像质量评价模型划分为3类:基于等矩形投影表达空间的方法、基于其他投影表达空间的方法和基于实际观看空间的方法.介绍完各类模型后,分别对其相应的优缺点进行分析.此外,本文对VR图像客观质量评价模型的性能评价指标和现有VR图像质量评价数据库进行了归纳.最后对VR图像客观质量评价模型的应用进行了介绍,并指出了未来的研究可能的发展方向.

    图像质量评价客观评价虚拟现实(VR)球面图像等矩形投影(ERP)

    自然光普通摄像头的眼部分割及特征点定位数据集ESLD

    张俊杰孙光民郑鲲李煜...
    2329-2343页
    查看更多>>摘要:目的 眼部状态的变化可以作为反映用户真实心理状态及情感变化的依据.由于眼部区域面积较小,瞳孔与虹膜颜色接近,在自然光下利用普通摄像头捕捉瞳孔大小以及位置的变化信息是当前一项具有较大挑战的任务.同时,与现实应用环境类似的具有精细定位和分割信息的眼部结构数据集的欠缺也是制约该领域研究发展的原因之一.针对以上问题,本文利用在普通摄像头场景下采集眼部图像数据,捕捉瞳孔的变化信息并建立了一个眼部图像分割及特征点定位数据集(eye segment and landmark detection dataset,ESLD).方法 收集、标注并公开发布一个包含多种眼部类型的图像数据集ESLD.采用3种方式采集图像:1)采集用户使用电脑时的面部图像;2)收集已经公开的数据集中满足在自然光下使用普通摄像机条件时采集到的面部图像;3)基于公开软件UnityEye合成的眼部图像.3种采集方式可分别得到1386幅、804幅和1600幅眼部图像.得到原始图像后,在原始图像中分割出眼部区域,将不同尺寸的眼部图像归一化为256×128像素.最后对眼部图像的特征点进行人工标记和眼部结构分割.结果 ESLD数据集包含多种类型的眼部图像,可满足研究人员的不同需求.因为实际采集和从公开数据集中获取真实眼部图像十分困难,所以本文利用UnityEye生成眼部图像以改善训练数据量少的问题.实验结果表明,合成的眼部图像可以有效地弥补数据量缺少的问题,F1值可达0.551.利用深度学习方法分别提供了眼部特征点定位和眼部结构分割任务的基线.采用ResNet101作为特征提取网络情况下,眼部特征点定位的误差为5.828,眼部结构分割的mAP(mean average precision)可达0.965.结论 ESLD数据集可为研究人员通过眼部图像研究用户情感变化以及心理状态提供数据支持.

    真实环境瞳孔分割特征点检测身份识别在线教育数据集

    双尺度顺序填充的深度图像修复

    陈东岳朱晓明马腾宋园园...
    2344-2355页
    查看更多>>摘要:目的 深度图像作为一种重要的视觉感知数据,其质量对于3维视觉系统至关重要.由于传统方法获取的深度图像大多有使用场景的限制,容易受到噪声和环境影响,导致深度图像缺失部分深度信息,使得修复深度图像仍然是一个值得研究并有待解决的问题.对此,本文提出一种用于深度图像修复的双尺度顺序填充框架.方法 首先,提出基于条件熵快速逼近的填充优先级估计算法.其次,采用最大似然估计实现缺失深度值的最优预测.最后,在像素和超像素两个尺度上对修复结果进行整合,准确实现了深度图像孔洞填充.结果 本文方法在主流数据集MB(Middlebury)上与7种方法进行比较,平均峰值信噪比(peak signal-to-noise ratio,PSNR)和平均结构相似性指数(structural similarity index,SSIM)分别为47.955 dB和0.9982;在手工填充的数据集MB+中,本文方法的PSNR平均值为34.697 dB,SSIM平均值为0.9785,对比其他算法,本文深度修复效果有较大优势.在时间效率对比实验中,本文方法也表现优异,具有较高的效率.在消融实验部分,对本文提出的填充优先级估计、深度值预测和双尺度改进分别进行评估,验证了本文创新点的有效性.结论 实验结果表明,本文方法在鲁棒性、精确度和效率方面相较于现有方法具有比较明显的优势.

    深度图像修复顺序填充条件熵快速逼近深度最优预测超像素

    二维码位流长度最小化算法

    袁泰凌徐昆
    2356-2367页
    查看更多>>摘要:目的 快速响应矩阵码(quick response code,QR code)简称二维码,是一种由深色和浅色模块组成的正方形符号.给定输入数据,不同编码算法可能输出不同的位流.位流长度决定了二维码的版本,进而决定了二维码每条边上的模块数量.减小二维码的版本能够在不减小模块大小的前提下节省面积,或者在不改变面积的前提下增大模块大小.为了减小二维码面积、提高二维码识读率,本文提出了位流长度最小化算法.方法 首先,根据二维码位流可以分段切换编码模式的特点,归纳了6种编码状态;然后,根据二维码位流编码标准推导了状态转移关系,从而将位流长度最小化问题转换成动态规划问题;最后,通过求解动态规划问题,计算出最短位流.针对统一资源定位符(uniform resource locator,URL)类型数据,利用其部分字段对大小写不敏感、部分字段可以转义的性质,提出了统一资源定位符的最短位流计算算法,进一步缩短位流.结果 本文构建了一个测试集,包含603个编码了非URL数据的二维码,以及1679个编码了URL数据的二维码.实验结果表明,本文算法与二维码标准相比,对于非URL测试集,位流长度减小的二维码占比9.1%,版本减小的二维码占比1.2%;对于URL测试集,位流长度减小的二维码占比98.4%,版本减小的二维码占比31.7%.结论 二维码位流长度最小化算法输出的位流长度最短,输出的二维码版本最小,能在兼容标准二维码解码器且不影响纠错能力的前提下提升二维码的数据容量.同时,本文算法运行速度快,易于使用,没有需要调节的参数.

    二维码快速响应矩阵码二维码编码动态规划统一资源定位符(URL)

    双视图三维卷积网络的工业装箱行为识别

    胡海洋潘健李忠金
    2368-2379页
    查看更多>>摘要:目的 在自动化、智能化的现代生产制造过程中,行为识别技术扮演着越来越重要的角色,但实际生产制造环境的复杂性,使其成为一项具有挑战性的任务.目前,基于3D卷积网络结合光流的方法在行为识别方面表现出良好的性能,但还是不能很好地解决人体被遮挡的问题,而且光流的计算成本很高,无法在实时场景中应用.针对实际工业装箱场景中存在的人体被遮挡问题和光流计算成本问题,本文提出一种结合双视图3D卷积网络的装箱行为识别方法.方法 首先,通过使用堆叠的差分图像(residual frames,RF)作为模型的输入来更好地提取运动特征,替代实时场景中无法使用的光流.原始RGB图像和差分图像分别输入到两个并行的3D ResNeXt101中.其次,采用双视图结构来解决人体被遮挡的问题,将3D ResNeXt101优化为双视图模型,使用一个可学习权重的双视图池化层对不同角度的视图做特征融合,然后使用该双视图3D ResNeXt101模型进行行为识别.最后,为进一步提高检测结果的真负率(true negative rate,TNR),本文在模型中加入降噪自编码器和two-class支持向量机(support vector machine,SVM).结果 本文在实际生产环境下装箱场景进行了实验,采用准确率和真负率两个指标进行评估,得到的装箱行为识别准确率为94.2%、真负率为98.9%.同时在公共数据集UCF(University of Central Florida)101上进行了评估,以准确率为评估指标,得到的装箱行为识别准确率为97.9%.进一步验证了本文方法的有效性和准确性.结论 本文提出的人体行为识别方法能够有效利用多个视图中的人体行为信息,结合传统模型和深度学习模型,显著提高了行为识别准确率和真负率.

    行为识别双视图三维卷积神经网络降噪自编码器支持向量机(SVM)

    面向航拍图像中工程车辆检测与识别的改进胶囊网络

    钟映春郑海阳张文祥王波...
    2380-2390页
    查看更多>>摘要:目的 利用无人机(unmanned aerial vehicle,UAV)巡检识别航拍图像中的工程车辆对于减少电力安全事故的发生具有重要意义.采用人工提取特征的经典模式识别方法或YOLOv5(you only look once v5)等深度学习算法识别无人机电力巡检航拍图像中的工程车辆,存在识别准确率低、模型参数规模大等问题.针对上述问题,提出一种改进的胶囊网络识别航拍图像中的工程车辆.方法 采用多层密集连接型方法改进原始胶囊网络结构,以提取图像中工程车辆更多的特征;改进了胶囊网络的动态路由方法,以提高胶囊网络的抗干扰能力;探索了网络层数和动态路由算法中关键参数对识别准确率的影响,以找到识别准确率最高时的参数.结果 实验结果表明:1)在所采用的算法模型中,本文方法的平均识别率(mean average precision,mAP)达到94.56%,明显高于其他方法.2)网络层数对识别准确率有很大影响,但二者之间并非单调线性关系.在本文的应用场景中,5层胶囊网络的识别准确率最高;此外,动态路由算法改进与否并不会影响识别准确率跟随网络层数的变化趋势.3)胶囊网络层数增加会降低识别效率,但是并不会明显增加参数规模,且参数规模与mAP无明显关联.结论 本文方法在获得较高识别准确率的同时具有参数规模较小的特点,为无人机在机载端识别目标物奠定了基础.

    无人机航拍图像工程车辆识别胶囊网络动态路由算法密集连接型网络

    用于骨架行为识别的多维特征嵌合注意力机制

    姜权晏吴小俊徐天阳
    2391-2403页
    查看更多>>摘要:目的 在行为识别任务中,妥善利用时空建模与通道之间的相关性对于捕获丰富的动作信息至关重要.尽管图卷积网络在基于骨架信息的行为识别方面取得了稳步进展,但以往的注意力机制应用于图卷积网络时,其分类效果并未获得明显提升.基于兼顾时空交互与通道依赖关系的重要性,提出了多维特征嵌合注意力机制(multi-dimensional feature fusion attention mechanism,M2FA).方法 不同于现今广泛应用的行为识别框架研究理念,如卷积块注意力模块(convolutional block attention module,CBAM)、双流自适应图卷积网络(two-stream adaptive graph convolutional network,2s-AGCN)等,M2FA通过嵌入在注意力机制框架中的特征融合模块显式地获取综合依赖信息.对于给定的特征图,M2FA沿着空间、时间和通道维度使用全局平均池化操作推断相应维度的特征描述符.特征图使用多维特征描述符的融合结果进行过滤学习以达到细化自适应特征的目的,并通过压缩全局动态信息的全局特征分支与仅使用逐点卷积层的局部特征分支相互嵌合获取多尺度动态信息.结果 实验在骨架行为识别数据集NTU-RGBD和Kinetics-Skeleton中进行,分析了M2 FA与其基线方法2 s-AGCN及最新提出的图卷积模型之间的识别准确率对比结果.在Kinetics-Skeleton验证集中,相比于基线方法2s-AGCN,M2FA分类准确率提高了1.8%;在NTU-RGBD的两个不同基准分支中,M2FA的分类准确率比基线方法2s-AGCN分别提高了1.6%和1.0%.同时,消融实验验证了多维特征嵌合机制的有效性.实验结果表明,提出的M2FA改善了图卷积骨架行为识别方法的分类效果.结论 通过与基线方法2 s-AGCN及目前主流图卷积模型比较,多维特征嵌合注意力机制获得了最高的识别精度,可以集成至基于骨架信息的体系结构中进行端到端的训练,使分类结果更加准确.

    行为识别骨架信息图卷积网络(GCN)注意力机制时空交互通道依赖性多维特征嵌合

    高性能整数倍稀疏网络行为识别研究

    臧影刘天娇赵曙光杨东升...
    2404-2417页
    查看更多>>摘要:目的 行为识别在人体交互、行为分析和监控等实际场景中具有广泛的应用.大部分基于骨架的行为识别方法利用空间和时间两个维度的信息才能获得好的效果.GCN(graph convolutional network)能够将空间和时间信息有效地结合起来,然而基于GCN的方法具有较高的计算复杂度,结合注意力模块和多流融合策略使整个训练过程具有更低的效率.目前大多数研究都专注于算法的性能,如何在保证精度的基础上减少算法的计算量是行为识别需要解决的关键性问题.对此,本文在轻量级Shift-GCN(shift graph convolutional network)的基础上,提出了整数倍稀疏网络IntSparse-GCN(integer sparse graph convolutional network).方法 首先提出奇数列向上移动,偶数列向下移动,并将移出部分用0替代新的稀疏移位操作,并在此基础上,提出将网络每层的输入输出设置成关节点的整数倍,即整数倍稀疏网络IntSparse-GCN.然后对Shift-GCN中的mask掩膜函数进行研究分析,通过自动化遍历方式得到精度最高的优化参数.结果 消融实验表明,每次算法改进都能提高算法整体性能.在NTU RGB+D数据集的子集X-sub和X-view上,4流IntSparse-GCN+M-Sparse的Top-1精度分别为90.72% 和96.57%.在Northwestern-UCLA数据集上,4流IntSparse-GCN+M-Sparse的Top-1精度达到96.77%,较原模型提高2.17%.相比代表性的其他算法,在不同数据集及4个流上的准确率均有提升,尤其在Northwestern-UCLA数据集上提升非常明显.结论 本文针对shift稀疏特征提出整数倍IntSparse-GCN网络,对Shift-GCN中的mask掩膜函数进行研究分析,并设计自动化遍历方式得到精度最高的优化参数,不但提高了精度,也为进一步的剪枝及量化提供了依据.

    行为识别轻量级稀疏特征矩阵整数倍稀疏网络(IntSparse-GCN)mask掩膜函数

    面向工业零件分拣系统的低纹理目标检测

    闫明陶大鹏普园媛
    2418-2429页
    查看更多>>摘要:目的 随着工业领域智能分拣业务的兴起,目标检测引起越来越多的关注.然而为了适应工业现场快速部署和应用的需求,算法只能在获得少量目标样本的情况下调整参数;另外工控机运算资源有限,工业零件表面光滑、缺乏显著的纹理信息,都不利于基于深度学习的目标检测方法.目前普遍认为Line2D可以很好地用于小样本情况的低纹理目标快速匹配,但Line2D不能正确匹配形状相同而颜色不同的两个零件.对此,提出一种更为鲁棒的低纹理目标快速匹配框架CL2D(color Line2D).方法 首先使用梯度方向特征作为物体形状的描述在输入图像快速匹配,获取粗匹配结果;然后通过非极大值抑制和颜色直方图比对完成精细匹配.最后根据工业分拣的特点,由坐标变换完成对目标的抓取点定位.结果 为了对算法性能进行测试,本文根据工业分拣的实际环境,提出了YNU-BBD 2020(YNU-building blocks datasets 2020)数据集.在YNU-BBD 2020数据集上的测试结果表明,CL2D可以在CPU平台上以平均2.15 s/幅的速度处理高分辨率图像,在精度上相比于经典算法和深度学习算法,mAP(mean average precision)分别提升了10%和7%.结论 本文针对工业零件分拣系统的特点,提出了一种快速低纹理目标检测方法,能够在CPU平台上高效完成目标检测任务,并且相较于现有方法具有显著优势.

    模板匹配低纹理目标检测颜色直方图智能制造随机分拣

    融合策略优选和双注意力的单阶段目标检测

    戴坤许立波黄世旸李鋆铃...
    2430-2443页
    查看更多>>摘要:目的 特征融合是改善模糊图像、小目标以及受遮挡物体等目标检测困难的有效手段之一,为了更有效地利用特征融合来整合不同网络层次的特征信息,显著表达其中的重要特征,本文提出一种基于融合策略优选和双注意力机制的单阶段目标检测算法FDA-SSD(fusion double attention single shot multibox detector).方法 设计融合策略优化选择方法,结合特征金字塔(feature pyramid network,FPN)来确定最优的多层特征图组合及融合过程,之后连接双注意力模块,通过对各个通道和空间特征的权重再分配,提升模型对通道特征和空间信息的敏感性,最终产生包含丰富语义信息和凸显重要特征的特征图组.结果 本文在公开数据集PASCAL VOC2007(pattern analy-sis,statistical modelling and computational learning visual object classes)和TGRS-HRRSD-Dataset(high resolution remote sensing detection)上进行对比实验,结果表明,在输入为300×300像素的PASCAL VOC2007测试集上,FDA-SSD模型的精度达到79.8%,比SSD(single shot multibox detector)、RSSD(rainbow SSD)、DSSD(de-convolution SSD)、FSSD(feature fusion SSD)模型分别高了2.6%、1.3%、1.2%、1.0%,在Titan X上的检测速度为47帧/s(frame per second,FPS),与SSD算法相当,分别高于RSSD和DSSD模型12 FPS和37.5 FPS.在输入像素为300×300的TGRS-HRRSD-Dataset测试集上的精度为84.2%,在Tesla V100上的检测速度高于SSD模型10%的情况下,准确率提高了1.5%.结论 通过在单阶段目标检测模型中引入融合策略选择和双注意力机制,使得预测的速度和准确率同时得到提升,并且对于小目标、受遮挡以及模糊图像等难目标的检测能力也得到较大提升.

    单阶段目标检测SSD算法特征金字塔(FPN)特征融合注意力机制