首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    从图像到语言:图像标题生成与描述

    谭云兰汤鹏杰张丽罗玉盘...
    727-750页
    查看更多>>摘要:图像标题生成与描述的任务是通过计算机将图像自动翻译成自然语言的形式重新表达出来,该研究在人类视觉辅助、智能人机环境开发等领域具有广阔的应用前景,同时也为图像检索、高层视觉语义推理和个性化描述等任务的研究提供支撑.图像数据具有高度非线性和繁杂性,而人类自然语言较为抽象且逻辑严谨,因此让计算机自动地对图像内容进行抽象和总结,具有很大的挑战性.本文对图像简单标题生成与描述任务进行了阐述,分析了基于手工特征的图像简单描述生成方法,并对包括基于全局视觉特征、视觉特征选择与优化以及面向优化策略等基于深度特征的图像简单描述生成方法进行了梳理与总结.针对图像的精细化描述任务,分析了当前主要的图像“密集描述”与结构化描述模型与方法.此外,本文还分析了融合情感信息与个性化表达的图像描述方法.在分析与总结的过程中,指出了当前各类图像标题生成与描述方法存在的不足,提出了下一步可能的研究趋势与解决思路.对该领域常用的MS COCO2014(Microsoft common objects in context)、Flickr30K等数据集进行了详细介绍,对图像简单描述、图像密集描述与段落描述和图像情感描述等代表性模型在数据集上的性能进行了对比分析.由于视觉数据的复杂性与自然语言的抽象性,尤其是融合情感与个性化表达的图像描述任务,在相关特征提取与表征、语义词汇的选择与嵌入、数据集构建及描述评价等方面尚存在大量问题亟待解决.

    图像标题生成深度特征视觉描述语段生成图像情感逻辑语义

    CT影像肺结节分割研究进展

    董婷魏珑聂生东
    751-765页
    查看更多>>摘要:准确分割肺结节在临床上具有重要意义.计算机断层扫描(computer tomography,CT)技术以其成像速度快、图像分辨率高等优点广泛应用于肺结节分割及功能评价中.为了进一步对肺部CT影像中的肺结节分割方法进行探索,本文对基于CT影像的肺结节分割方法研究进行综述.1)对传统的肺结节分割方法及其优缺点进行了归纳比较;2)重点介绍了包括深度学习、深度学习与传统方法相结合在内的肺结节分割方法;3)简单介绍了肺结节分割方法的常用评价指标,并结合部分方法的指标表现展望了肺结节分割方法研究领域的未来发展趋势.传统的肺结节分割方法各有优缺点和其适用的结节类型,深度学习分割方法因普适性好等优点成为该领域的研究热点.研究者们致力于如何提高分割结果的准确度、模型的鲁棒性及方法的普适性,为了实现此目的本文总结了各类方法的优缺点.基于CT影像的肺结节分割方法研究已经取得了不小的成就,但肺结节形状各异、密度不均匀,且部分结节与血管、胸膜等解剖结构粘连,给结节分割增加了困难,结节分割效果仍有很大提升空间.精度高、速度快的深度学习分割方法将会是研究者密切关注的方法,但该类方法仍需解决数据需求量大和网络模型超参数的确定等问题.

    肺结节CT影像肺结节分割方法深度学习综述

    全局注意力门控残差记忆网络的图像超分重建

    王静宋慧慧张开华刘青山...
    766-775页
    查看更多>>摘要:目的 随着深度卷积神经网络的兴起,图像超分重建算法在精度与速度方面均取得长足进展.然而,目前多数超分重建方法需要较深的网络才能取得良好性能,不仅训练难度大,而且到网络末端浅层特征信息容易丢失,难以充分捕获对超分重建起关键作用的高频细节信息.为此,本文融合多尺度特征充分挖掘超分重建所需的高频细节信息,提出了一种全局注意力门控残差记忆网络.方法 在网络前端特征提取部分,利用单层卷积提取浅层特征信息.在网络主体非线性映射部分,级联一组递归的残差记忆模块,每个模块融合多个递归的多尺度残差单元和一个全局注意力门控模块来输出具备多层级信息的特征表征.在网络末端,并联多尺度特征并通过像素重组机制实现高质量的图像放大.结果 本文分别在图像超分重建的5个基准测试数据集(Set5、Set14、B100、Urban100和Manga109)上进行评估,在评估指标峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity,SSIM)上相比当前先进的网络模型均获得更优性能,尤其在Manga109测试数据集上本文算法取得的PSNR结果达到39.19 dB,相比当前先进的轻量型算法AWSRN(adaptive weighted super-resolution network)提高0.32 dB.结论 本文网络模型在对低分图像进行超分重建时,能够联合学习网络多层级、多尺度特征,充分挖掘图像高频信息,获得高质量的重建结果.

    单幅图像超分辨率(SISR)深度卷积神经网络(DCNN)注意力门控机制多尺度残差单元(MRUs)递归学习

    多层次感知残差卷积网络的单幅图像超分重建

    何蕾程佳豪占志钰杨雯博...
    776-786页
    查看更多>>摘要:目的 单幅图像超分辨率重建的深度学习算法中,大多数网络都采用了单一尺度的卷积核来提取特征(如3×3的卷积核),往往忽略了不同卷积核尺寸带来的不同大小感受域的问题,而不同大小的感受域会使网络注意到不同程度的特征,因此只采用单一尺度的卷积核会使网络忽略了不同特征图之间的宏观联系.针对上述问题,本文提出了多层次感知残差卷积网络(multi-level perception residual convolutional network,MLP-Net,用于单幅图像超分辨率重建).方法 通过特征提取模块提取图像低频特征作为输入.输入部分由密集连接的多个多层次感知模块组成,其中多层次感知模块分为浅层多层次特征提取和深层多层次特征提取,以确保网络既能注意到图像的低级特征,又能注意到高级特征,同时也能保证特征之间的宏观联系.结果 实验结果采用客观评价的峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity,SSIM)两个指标,将本文算法其他超分辨率算法进行了对比.最终结果表明本文算法在4个基准测试集上(Set5、Set14、Urban100和BSD100(Berkeley Segmentation Dataset))放大2倍的平均峰值信噪比分别为37.851 1 dB,33.933 8 dB,32.219 1 dB,32.148 9 dB,均高于其他几种算法的结果.结论 本文提出的卷积网络采用多尺度卷积充分提取分层特征中的不同层次特征,同时利用低分辨率图像本身的结构信息完成重建,并取得不错的重建效果.

    深度学习卷积神经网络(CNN)单幅图像超分辨率(SISR)多层次感知残差网络密集连接DIV2K

    采用双尺度图像分解的水下彩色图像增强

    李健张显斗李熵飞吴子朝...
    787-795页
    查看更多>>摘要:目的 为解决水下图像的色偏和低对比度等问题,提出一种基于双尺度图像分解的水下彩色图像增强算法.方法 通过基于均值和方差的对比度拉伸方法改善图像的色偏问题,并利用中值滤波降低红通道对比度拉伸后引入的噪声;采用双尺度图像分解绿通道图像补偿红通道图像细节;在处理后的红通道图像中引入原始图像红通道的真实细节与颜色.结果 选取不同水下图像作为实验数据集,将本文方法与暗通道先验的方法、基于融合的方法、自动红通道恢复方法以及一种基于卷积神经网络深度学习的方法相比较,首先从主观视觉效果进行定性分析,然后通过不同评测指标进行定量分析.主观定性分析结果表明,提出的方法相比较其他方法能够更好地解决图像色偏和红色阴影问题;定量分析中,自然图像质量评价(natural image quality evaluation,NIQE)指标和信息熵(information entropy,IE)值较基于融合的方法和深度学习的方法分别提高了1.8%和13.6%,且水下图像质量评价指标(underwater image quality measurement method,UIQM)较其他方法更优.结论 提出的双尺度图像分解方法利用水下图像成像特点解决图像色偏以及低对比度问题,具有良好的适应能力,同时算法复杂度低且鲁棒性较高,普遍适用于复杂的水下彩色图像增强.

    水下图像双尺度分解均值滤波细节补偿色偏红色阴影

    姿态特征结合2维傅里叶变换的步态识别

    王新年胡丹丹张涛白桂欣...
    796-814页
    查看更多>>摘要:目的 针对现有步态识别方法易受携带物品、衣服变化等影响的问题,提出了将无肩姿态能量图、步态参数等姿态特征与步态参数的2维傅里叶变换相结合的步态识别算法.方法 基于姿态关节点序列提出忽略肩膀宽度信息的无肩姿态能量图,用以减弱衣服变化的影响;由于下肢受衣物及背包影响较小,提取3个或3个以上的下肢关节点局部结构参数,即提取中臀点与左右膝关节点、中臀点与左右踝关节点构成的两个三角形面积以及所有下肢关节点构成的多边形面积作为步态参数,增强下肢参数在步态识别中的作用;人在行走时,单肢体的运动具有一定的周期性,且肢体之间运动具有一定的协调性,用步态参数的2维幅度谱来表示单肢体运动的周期性与肢体之间运动的协调性,以提高步态参数的可区别性;在现有典型步态特征的基础上,融合本文提出的无肩姿态能量图、步态参数及其2维傅里叶变换幅度谱,采用多特征表示步态的方法,充分利用各特征的优点,提出加权平均与最大池化相结合的两层分数融合策略进行步态识别,提高了步态识别算法在携带物品、衣服变化和跨视角等条件下的正确率.结果 实验结果表明,在中国科学院自动化研究所发布的步态数据集CASIA-B上,本文方法在相同视角条件下,正常状态、背包状态和穿大衣状态的平均识别率分别为99.56%、99.23%和94.25%;在跨视角条件下,正常状态、背包状态和穿大衣状态的平均识别率分别为91.32%、85.34%和69.51%.与典型算法相比,穿大衣状态的识别率有显著提升.结论 本文方法采用加权平均与最大池化相结合的两层分数融合策略,综合利用各特征的优点及其适用场景,有效提高了步态识别的准确率,特别是减弱了衣服厚度、样式等变化对步态识别的影响.

    步态识别姿态特征无肩姿态能量图运动的协调性与周期性局部结构步态参数步态参数的2维傅里叶变换两层分数融合策略

    复杂背景下的手势识别

    王银陈云龙孙前来
    815-827页
    查看更多>>摘要:目的 手势识别是人机交互领域的热点问题.针对传统手势识别方法在复杂背景下识别率低,以及现有基于深度学习的手势识别方法检测时间长等问题,提出了一种基于改进TinyYOLOv3算法的手势识别方法.方法 对TinyYOLOv3主干网络重新进行设计,增加网络层数,从而确保网络提取到更丰富的语义信息.使用深度可分离卷积代替传统卷积,并对不同网络层的特征进行融合,在保证识别准确率的同时,减小网络模型的大小.采用CIoU(complete intersection over union)损失对原始的边界框坐标预测损失进行改进,将通道注意力模块融合到特征提取网络中,提高了定位精度和识别准确率.使用数据增强方法避免训练过拟合,并通过超参数优化和先验框聚类等方法加快网络收敛速度.结果 改进后的网络识别准确率达到99.1%,网络模型大小为27.6 MB,相比原网络(TinyYOLOv3)准确率提升了8.5%,网络模型降低了5.6 MB,相比于YOLO (you only look once)v3和SSD(single shot multibox detector)300算法,准确率略有降低,但网络模型分别减小到原来的1/8和1/3左右,相比于YOLO-lite和MobileNet-SSD等轻量级网络,准确率分别提升61.12%和3.11%.同时在自制的复杂背景下的手势数据集对改进后的网络模型进行验证,准确率达到97.3%,充分证明了本文算法的可行性.结论 本文提出的改进Tiny-YOLOv3手势识别方法,对于复杂背景下的手势具有较高的识别准确率,同时在检测速度和模型大小方面都优于其他算法,可以较好地满足在嵌入式设备中的使用要求.

    手势识别TinyYOLOv3深度可分离卷积CIoU损失

    结合形变模型与图像修复的人脸姿态矫正

    吴从中郑荣生臧怀娟刘明威...
    828-836页
    查看更多>>摘要:目的 人脸姿态偏转是影响人脸识别准确率的一个重要因素,本文利用3维人脸重建中常用的3维形变模型以及深度卷积神经网络,提出一种用于多姿态人脸识别的人脸姿态矫正算法,在一定程度上提高了大姿态下人脸识别的准确率.方法 对传统的3维形变模型拟合方法进行改进,利用人脸形状参数和表情参数对3维形变模型进行建模,针对面部不同区域的关键点赋予不同的权值,加权拟合3维形变模型,使得具有不同姿态和面部表情的人脸图像拟合效果更好.然后,对3维人脸模型进行姿态矫正并利用深度学习对人脸图像进行修复,修复不规则的人脸空洞区域,并使用最新的局部卷积技术同时在新的数据集上重新训练卷积神经网络,使得网络参数达到最优.结果 在LFW(labeled faces in the wild)人脸数据库和StirlingESRC (Economic Social Research Council)3维人脸数据库上,将本文算法与其他方法进行比较,实验结果表明,本文算法的人脸识别精度有一定程度的提高.在LFW数据库上,通过对具有任意姿态的人脸图像进行姿态矫正和修复后,本文方法达到了96.57%的人脸识别精确度.在StirlingESRC数据库上,本文方法在人脸姿态为±22°的情况下,人脸识别准确率分别提高5.195%和2.265%;在人脸姿态为±45°隋况下,人脸识别准确率分别提高5.875%和11.095%;平均人脸识别率分别提高5.53%和7.13%.对比实验结果表明,本文提出的人脸姿态矫正算法有效提高了人脸识别的准确率.结论 本文提出的人脸姿态矫正算法,综合了3维形变模型和深度学习模型的优点,在各个人脸姿态角度下,均能使人脸识别准确率在一定程度上有所提高.

    多姿态人脸识别3维形变模型(3DMM)卷积神经网络(CNN)图像修复深度学习

    YOLOv3剪枝模型的多人姿态估计

    蔡哲栋应娜郭春生郭锐...
    837-846页
    查看更多>>摘要:目的 为了解决复杂环境中多人姿态估计存在的定位和识别等问题,提高多人姿态估计的准确率,减少算法存在的大量冗余参数,提高姿态估计的运行速率,提出了基于批量归一化层(batch normalization,BN)通道剪枝的多人姿态估计算法(YOLOv3 prune pose estimator,YLPPE).方法 以目标检测算法YOLOv3 (you only look once v3)和堆叠沙漏网络(stacked hourglass network,SHN)算法为基础,通过重叠度K-means算法修改YOLOv3网络锚框以更适应行人目标检测,并训练得到Trimming-YOLOv3网络;利用批量归一化层的缩放因子对Trimming-YOLOv3网络进行循环迭代式通道剪枝,设置剪枝阈值与缩放因子,实现较为有效的模型剪枝效果,训练得到Trim-Prune-YOLOv3网络;为了结合单人姿态估计网络,重定义图像尺寸为256×256像素(非正方形图像通过补零实现);再级联4个Hourglass子网络得到堆叠沙漏网络,从而提升整体姿态估计精度.结果 利用斯坦福大学的MPII数据集(MPII human pose dataset)进行实验验证,本文算法对姿态估计的准确率达到了83.9%;同时,时间复杂度为O(n2),模型参数量与未剪枝原始YOLOv3相比下降42.9%.结论 结合YOLOv3剪枝算法的多人姿态估计方法可以有效减少复杂环境对人体姿态估计的负面影响,实现复杂环境下的多人姿态估计并提高估计精度,有效减少模型冗余参数,提高算法的整体运行速率,能够实现较为准确的多人姿态估计,并具有较好的鲁棒性和泛化能力.

    目标检测多人姿态估计模型剪枝YOLOv3堆叠沙漏网络MPII数据集

    YOLOv3和双线性特征融合的细粒度图像分类

    闫子旭侯志强熊磊刘晓义...
    847-856页
    查看更多>>摘要:目的 细粒度图像分类是计算机视觉领域具有挑战性的课题,目的是将一个大的类别分为更详细的子类别,在工业和学术方面都有着十分广泛的研究需求.为了改善细粒度图像分类过程中不相关背景干扰和类别差异特征难以提取的问题,提出了一种将目标检测方法YOLOv3(you only look once)和双线性融合网络相结合的细粒度分类优化算法,以此提高细粒度图像分类的性能.方法 利用重新训练过的目标检测算法YOLOv3粗略确定目标在图像中的位置;使用背景抑制方法消除目标以外的信息干扰;利用融合不同通道、不同层级卷积层特征的方法对经典的细粒度分类算法双线性卷积神经网络(bilinear convolutional neural network,B-CNN)进行改进,优化分类性能,通过融合双线性网络中不同卷积层的特征向量,得到更加丰富的互补信息,从而提高细粒度分类精度.结果 实验结果表明,在CUB-200-2011(Caltech-UCSD Birds-200-2011)、Cars196和Aircrafts100数据集中,本文算法的分类准确率分别为86.3%、92.8%和89.0%,比经典的B-CNN细粒度分类算法分别提高了2.2%、1.5%和4.9%,验证了本文算法的有效性.同时,与已有细粒度图像分类算法相比也表现出一定的优势.结论 改进算法使用YOLOv3有效滤除了大量无关背景,通过特征融合方法来改进双线性卷积神经分类网络,丰富特征信息,使分类的结果更加精准.

    细粒度图像分类目标检测背景抑制特征融合双线性卷积神经网络(B-CNN)