首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    有限色彩空间下的线稿上色

    陈缘赵洋张效娟刘晓平...
    978-988页
    查看更多>>摘要:目的 线稿上色是由线条构成的黑白线稿草图涂上颜色变为彩色图像的过程,在卡通动画制作和艺术绘画等领域中是非常关键的步骤.全自动线稿上色方法可以减轻绘制过程中烦琐耗时的手工上色的工作量,然而自动理解线稿中的稀疏线条并选取合适的颜色仍较为困难.方法 依据现实场景中特定绘画类型常有固定用色风格偏好这一先验,本文聚焦于有限色彩空间下的线稿自动上色,通过约束色彩空间,不仅可以降低语义理解的难度,还可以避免不合理的用色.具体地,本文提出一种两阶段线稿自动上色方法.在第1阶段,设计一个灰度图生成器,对输入的稀疏线稿补充线条和细节,以生成稠密像素的灰度图像.在第2阶段,首先设计色彩推理模块,从输入的颜色先验中推理得到适合该线稿的色彩子空间,再提出一种多尺度的渐进融合颜色信息的生成网络以逐步生成高质量的彩色图像.结果 实验在3个数据集上与4种线稿自动上色方法进行对比,在上色结果的客观质量对比中,所提方法取得了更高的峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity index mea-sure,SSIM)值以及更低的均方误差;在上色结果的色彩指标对比中,所提方法取得了最高的色彩丰富度分数;在主观评价和用户调查中,所提方法也取得了与人的主观审美感受更一致的结果.此外,消融实验结果也表明了本文所使用的模型结构及色彩空间限制有益于上色性能的提升.结论 实验结果表明,本文提出的有限色彩空间下的线稿自动上色方法可以有效地完成多类线稿的自动上色,并且可以简单地通过调整颜色先验以获得更多样的彩色图像.

    线稿上色有限色彩空间卡通绘画生成对抗网络

    B样条驱动纹理生成的构造式信息隐藏

    郦姝伊韩彦芳乐燕芬姚恒...
    989-1002页
    查看更多>>摘要:目的 传统构造式图像信息隐藏算法通常直接将图像空域特征与秘密信息关联,对算法的安全性造成威胁.因此,本文将曲线绘制函数与信息隐藏相结合,提出一种以B样条控制点为特征,在图像空域间接隐藏信息的算法.方法 算法主要分为信息隐藏及信息提取两阶段.在信息隐藏阶段,发送方首先通过选取初始控制点、仿射变换及B样条曲线绘制生成多条参考曲线,然后利用曲线控制点的位置隐藏信息,最后为图像填充颜色,即完成含密纹理图像的构造.在信息提取阶段,提取方根据纹理曲线和图像颜色获得含密曲线及参考曲线,经对照计算即可提取出秘密信息.结果 本算法具有较高的隐藏容量、鲁棒性和安全性.实验结果表明,由本文算法生成的800 × 800像素图像,其最高隐藏容量可达2 870 bits,分别是另两种典型构造式信息隐藏算法的6.7和3.4倍,且在质量因子为10的JPEG(joint photographic experts group)压缩攻击下的提取误码率可低至0,优于鲁棒较强的选择式信息隐藏算法LDA-DCT(robust coverless image steganography based on DCT and LDA topic classification)以及与之类似的构造式信息隐藏算法.同时,抗隐写分析检测实验表明,在隐藏容量小于250bits时检测误差趋近于0.5.结论 本文以B样条曲线控制点为特征,在纹理图像的绘制过程中隐藏信息,有效提高了传统构造式图像信息隐藏算法的安全性、隐藏容量和鲁棒性.

    构造式信息隐藏B样条纹理图像隐藏容量安全性鲁棒性

    联合深度学习和宽度学习的纹理样图自动提取

    吴惠思梁崇鑫颜威文振焜...
    1003-1017页
    查看更多>>摘要:目的 纹理样图是指一幅用于描述纹理特征的图像,纹理样图多样性在纹理合成任务中是至关重要的,它可以为合成的纹理带来更丰富、多样和逼真的外观,同时为艺术家和设计师提供了更多的创作灵感和自由度.当前,纹理样图的提取主要通过手工剪裁和算法自动提取,从大量的图像中手工剪裁提取出高质量的纹理样图十分耗费精力和时间,并且该方式易受主观驱动且多样性受限.目前先进的纹理样图自动提取算法基于卷积神经网络的Trimmed T-CNN(texture convolutional neural network)模型存在推理速度慢的问题.基于此,本文致力于利用互联网上丰富的图像资源,自动快速地从各种图像中裁剪出理想且多样的纹理样图,让用户有更多的选择.方法 本文提出一个结合深度学习和宽度学习的从原始图像中自动提取纹理样图的方法.为了获取理想的纹理样图,首先通过残差特征金字塔网络提取特征图,有效地从输入图像中识别样图候选者,然后采用区域候选网络快速自动地获取大量的纹理样图候选区域.接下来,利用宽度学习系统对纹理样图的候选区域进行分类.最后,使用评分准则对宽度学习系统的分类结果进行评分,从而筛选出理想的纹理样图.结果 为了验证本文方法的有效性,收集大量理想纹理样图并将它们分成6个类进行实验验证,本文模型的准确度达到了 94.66%.与当前先进的方法Trimmed T-CNN相比,本文模型准确度提高了0.22%且速度得到了提升.对于分辨率为512×512像素、1 024× 1 024像素和2 048 × 2 048像素的图像,算法速度分别提快了 1.393 8 s、1.864 3 s和2.368 7 s.结论 本文提出的纹理样图自动提取算法,综合了深度学习和宽度学习的优点,使纹理样图的提取结果更加准确且高效.

    宽度学习卷积神经网络(CNN)纹理样图提取目标检测区域候选网络特征金字塔网络(FPN)

    融合事件相机的视觉场景识别

    刘熠晨余磊余淮杨文...
    1018-1029页
    查看更多>>摘要:目的 传统视觉场景识别(visual place recognition,VPR)算法的性能依赖光学图像的成像质量,因此高速和高动态范围场景导致的图像质量下降会进一步影响视觉场景识别算法的性能.针对此问题,提出一种融合事件相机的视觉场景识别算法,利用事件相机的低延时和高动态范围的特性,提升视觉场景识别算法在高速和高动态范围等极端场景下的识别性能.方法 本文提出的方法首先使用图像特征提取模块提取质量良好的参考图像的特征,然后使用多模态特征融合模块提取查询图像及其曝光区间事件信息的多模态融合特征,最后通过特征匹配查找与查询图像最相似的参考图像.结果 在MVSEC(multi-vehicle stereo event camera dataset)和RobotCar两个数据集上的实验表明,本文方法对比现有视觉场景识别算法在高速和高动态范围场景下具有明显优势.在高速高动态范围场景下,本文方法在MVSEC数据集上相较对比算法最优值在召回率与精度上分别提升5.39%和8.55%,在Robot-Car数据集上相较对比算法最优值在召回率与精度上分别提升3.36%与4.41%.结论 本文提出了融合事件相机的视觉场景识别算法,利用了事件相机在高速和高动态范围场景的成像优势,有效提升了视觉场景识别算法在高速和高动态范围场景下的场景识别性能.

    视觉场景识别(VPR)事件相机多模态特征融合特征匹配

    面向图数转化的曲线提取与细化神经网络

    周其当刘春晓吕金龙冯才博...
    1030-1040页
    查看更多>>摘要:目的 曲线图是数据呈现的重要形式,但在没有原始数据的情况下难以查询其中的具体数值.现有的图数转化算法需要大量的人工辅助操作去除图表中网格线等干扰,具有机械重复性且需大量人力的缺点.另外,图像压缩与缩放等攻击会降低图像质量,导致图数转化的准确度进一步降低.为了解决上述问题,本文提出了一个基于曲线提取与细化神经网络的图数转化算法.方法 首先,提出了基于侧结构引导与拉普拉斯卷积的曲线提取神经网络(side structure guidance and Laplace convolution based curve extraction neural network,SLCENet),以轻量化的模型解决了现有曲线提取方法中的池化操作导致的边界模糊问题,提高了曲线提取的准确度.其次,为了减小曲线线宽对图数转化造成的误差,并平衡计算复杂度和准确度,设计了 10个能够反映曲线走势的特征,提出了基于曲线走势特征和多层感知机的曲线细化方法(curve trend features and MLP based curve thinning method,CMCT),实现了曲线细化的高精度.最后,利用PaddleOCR(paddle optical character recognition)定位并识别坐标轴上的坐标标签,建立起坐标轴坐标与像素坐标的变换关系,通过坐标变换完成图数转化任务.结果 在曲线提取方面,本文方法SLCENet的全局最优阈值指标(optimal dataset scale,ODS)达到了 0.985,在分辨率为640×480像素的图像上的运行速度达到了0.043s/幅,在兼顾曲线提取准确度和运行速度的情况下达到了最好的性能.在图数转化方面,本文方法的归一化均值误差(normalized mean error,NME)达到了 0.79,运行速度达到了 0.83 s/幅.结论 提出的方法实现了全自动高精度的图数转化目标.与现有方法相比,在保持较小计算量的情况下兼具准确度高和运行速度快的特点,摆脱了图数转化需要大量人工交互辅助的限制.

    曲线图数据转化曲线提取曲线细化拉普拉斯卷积卷积神经网络(CNN)

    显著性引导的目标互补隐藏弱监督语义分割

    白雪飞卢立彬王文剑
    1041-1055页
    查看更多>>摘要:目的 图像级弱监督语义分割方法利用类别标签训练分割网络,可显著降低标注成本.现有方法大多采用类激活图定位目标物体,然而传统类激活图只能挖掘出物体中最具辨识性的区域,直接将其作为伪标签训练的分割网络精度较差.本文提出一种显著性引导的弱监督语义分割算法,可在获取更完整类激活图的基础上提高分割模型的性能.方法 首先通过显著图对目标进行互补随机隐藏,以获得互补图像对,然后融合互补图像对的类激活图作为监督,提高网络获取完整类激活图的能力.其次引入双重注意力修正模块,利用全局信息修正类激活图并生成伪标签训练分割网络.最后使用标签迭代精调策略,结合分割网络的初始预测、类激活图以及显著图生成更精确的伪标签,迭代训练分割网络.结果 在 PASCAL VOC 2012(pattern analysis,statistical modeling and computational learning visual object classes 2012)数据集上进行类激活图生成实验与语义分割实验,所生成的类激活图更加完整,平均交并比有10.21%的提升.语义分割结果均优于对比方法,平均交并比提升6.9%.此外在COCO 2014(com-mon object in context 2014)数据集上进行了多目标的语义分割实验,平均交并比提升0.5%.结论 该算法可获得更完整的类激活图,缓解了弱监督语义分割中监督信息不足的问题,提升了弱监督语义分割模型的精度.

    深度学习弱监督语义分割显著性引导类激活图(CAM)注意力机制

    结合坐标转换和时空信息注入的点云人体行为识别

    尤凯军侯振杰梁久祯钟卓锟...
    1056-1069页
    查看更多>>摘要:目的 行为识别中广泛使用的深度图序列存在着行为数据时空结构信息体现不足、易受深色物体等因素影响的缺点,点云数据可以提供丰富的空间信息与几何特征,弥补了深度图像的不足,但多数点云数据集规模较小且没有时序信息.为了提高时空结构信息的利用率,本文提出了结合坐标转换和时空信息注入的点云人体行为识别网络.方法 通过将深度图序列转换为三维点云序列,弥补了点云数据集规模较小的缺点,并加入帧的时序概念.本文网络由两个模块组成,即特征提取模块和时空信息注入模块.特征提取模块提取点云深层次的外观轮廓特征.时空信息注入模块为轮廓特征注入时序信息,并通过一组随机张量投影继续注入空间结构信息.最后,将不同层次的多个特征进行聚合,输入到分类器中进行分类.结果 在3个公共数据集上对本文方法进行了验证,提出的网络结构展现出了良好的性能.其中,在NTU RGB+d60数据集上的精度分别比PSTNet(point spatio-temporal net-work)和SequentialPointNet提升了 1.3%和0.2%,在NTU RGB+dl20数据集上的精度比PSTNet提升了 1.9%.为了确保网络模型的鲁棒性,在MSR Action3D小数据集上进行实验对比,识别精度比SequentialPointNet提升了1.07%.结论 提出的网络在获取静态的点云外观轮廓特征的同时,融入了动态的时空信息,弥补了特征提取时下采样导致的时空损失.

    人体行为识别坐标转换点云序列特征提取时空信息

    跨模态注意力YOLOv5的PET/CT肺部肿瘤检测

    周涛叶鑫宇赵雅楠陆惠玲...
    1070-1084页
    查看更多>>摘要:目的 肺部肿瘤早期症状不典型易导致错过最佳治疗时间,有效准确的肺部肿瘤检测技术在计算机辅助诊断中变得日益重要,但在肺部肿瘤PET/CT(positron emission computed tomography/computed tomography)多模态影像中,肿瘤与周围组织粘连导致边缘模糊和对比度低,且存在病灶区域小、大小分布不均衡等问题.针对上述问题,提出一种跨模态注意力YOLOv5(cross-modal attention you only look once v5,CA-YOLOv5)的肺部肿瘤检测模型.方法 首先,在主干网络中设计双分支并行的自学习注意力,利用实例归一化学习比例系数,同时利用特征值与平均值之间差值计算每个特征所包含信息量,增强肿瘤特征和提高对比度;其次,为充分学习多模态影像的多模态优势信息,设计跨模态注意力对多模态特征进行交互式学习,其中Transformer用于建模深浅层特征的远距离相互依赖关系,学习功能和解剖信息以提高肺部肿瘤识别能力;最后,针对病灶区域小、大小分布不均衡的问题,设计动态特征增强模块,利用不同感受野的多分支分组扩张卷积和分组可变形卷积,使网络充分高效挖掘肺部肿瘤特征的多尺度语义信息.结果 在肺部肿瘤PET/CT数据集上与其他10种方法进行性能对比,CA-YOLOv5获得了 97.37%精度、94.01%召回率、96.36%mAP(mean average precision)和95.67%F1的最佳性能,并且在同设备上训练耗时最短.在LUNA 16(lung nodule analysis 16)数据集中本文同样获得了 97.52%精度和97.45%mAP的最佳性能.结论 本文基于多模态互补特征提出跨模态注意力YOLOv5检测模型,利用注意力机制和多尺度语义信息,实现了肺部肿瘤检测模型在多模态影像上的有效识别,使模型识别更加准确和更具鲁棒性.

    YOLOv5检测自学习注意力跨模态注意力动态特征增强模块PET/CT肺部肿瘤数据集

    多尺度信息交互与融合的乳腺病理图像分类

    丁维龙朱峰龙郑魁贾秀鹏...
    1085-1099页
    查看更多>>摘要:目的 基于深度学习方法进行乳腺癌识别是一项具有挑战的任务,目前较多研究使用单一倍率下的乳腺组织病理图像作为模型的输入,忽略了乳腺组织病理图像固有的多倍率特点,而少数将不同倍率下的图像作为模型输入的研究,存在特征利用率较低以及不同倍率的图像之间缺乏信息交互等问题.方法 针对上述问题,提出一种基于多尺度和分组注意力机制的卷积神经网络改进策略.该策略主要包括信息交互模块和特征融合模块.前者通过空间注意力加强不同倍率的图像之间的相关性,然后将加权累加的结果反馈给原始分支进行动态选择实现特征流通;后者则利用一种分组注意力来提升特征的利用率,同时基于特征金字塔来消除图像之间的感受野差异.结果 本文将上述策略应用到多种卷积网络中,并与最新的方法进行比较.在Camelyon16公开数据集上进行五折交叉验证实验,并对每一项评价指标计算均值和标准差.相比于单一尺度图像作为输入的卷积网络,本文改进的方法在准确率上提升0.9%~1.1%,F1分数提升1.1%~1.2%;相较于对比方法中性能最好的TransPath网络,本文改进的DenseNet201(dense convolutional network)在准确率上提升0.6%,精确率提升0.8%,F1分数提升0.6%,并且各项指标的标准差低于Transpath,表明加入策略的网络具有更好的稳定性.结论 本文所提出的策略能弥补一般多尺度网络的缺陷,并具备一定的通用性,可获得更好的乳腺癌分类性能.

    乳腺病理图像分类密集卷积网络多尺度注意力特征融合

    阿尔茨海默症诊断与病理区域检测的反事实推理模型

    葛威刘汝璇郑菲刘海华...
    1100-1116页
    查看更多>>摘要:目的 随着全球人口老年化趋势日益加剧,阿尔茨海默症(Alzheimer's disease,AD)的及时诊断与病理区域的可视化及其准确定位具有重要的临床意义.目前的研究中,基于块级和区域级的检测,由于采用非线性交互很难解释影响模型决策的病理区域.针对此问题,提出了一种AD病理区域定位及诊断的联合学习框架.方法 利用反事实推理的思想,基于前景背景注意力掩码构建注意力引导的循环生成对抗网络(attention-guided cycle genera-tive adversarial network,ACGAN)可视化AD患者的病理区域,并使用生成的病理区域知识指导增强诊断模型.具体来说,通过在ACGAN模型的生成器中设计注意力掩码来引导生成方案,使模型更好地聚焦于疾病的病理区域,有效地捕捉突出的全局特征.并通过ACGAN模型中病理区域生成器实现结构磁共振图像(structural magnetic resonance imaging,sMRI)在源域和目标域之间的转换清晰地划分出细微的病理区域.利用生成的病理区域知识作为指导,并结合三维坐标注意力与全局局部注意力,获取三维图像之间的依赖关系及三维空间的位置信息,优化诊断模型.结果 为了验证方法的有效性,在公开的ADNI(Alzheimer's disease neuroimaging initiative)数据集上对模型进行评估,与传统的卷积神经网络(convolutional neural network,CNN)模型及几种较为先进的AD分类诊断模型相比,本文使用病理区域知识指导增强诊断模型显示出优越的诊断性能,相比于性能较好的方法,ACC(accuracy)、Fl-score、AUC(area under curve)分别提高了 3.60%、5.02%、1.94%.并对生成的病理区域图像进行定性及定量评估,本文方法得到的病理区域图像归一化互相关分数和峰值信噪比均优于对比方法.结论 与现有方法相比,本文模型可以学习sMRI图像在源域和目标域之间的转换,能够准确地捕获全局特征及病理区域.并将学习到的病理区域知识用于AD诊断模型的改进,使分类诊断模型取得了卓越性能.

    阿尔茨海默症(AD)病理区域生成对抗网络(GAN)注意力机制可视化