首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    多监督损失函数光滑化图像超分辨率重建

    孟志青张晶邱健数
    2972-2983页
    查看更多>>摘要:目的 将低分辨率(low-resolution,LR)图像映射到高分辨率(high-resolution,HR)图像是典型的不适定恢复问题,即输出的HR图像和输入的LR图像之间的映射是多对一的,这意味着仅通过增加网络深度来确定HR图像与LR图像之间的特定映射关系是非常困难的.针对该问题,本文提出一种基于多监督光滑化损失函数的图像超分辨率方法.方法 该方法主体由LR图像上采样通道和HR图像下采样通道两部分组成.各通道分为两个阶段,每个阶段均包括浅层特征提取模块、基于迭代采样错误反馈机制的采样模块、全局特征融合模块和图像重建模块.将LR图像上采样通道第1阶段结果与HR图像下采样通道第1阶段结果对比,然后将HR原图像和HR图像下采样通道第2阶段结果作为约束构成多监督,使映射函数空间尽可能精确,并将多监督损失函数光滑化保证梯度在全局范围内传递.结果 在基准测试集Set5、Set14、BSD100(Berkeley segmentation dataset)、Urban100(urban scenes dataset)、Manga109(109 manga volumes dataset)数据集上进行测试,并与Bicubic、SRCNN(super-resolution con-volutional neural network)、FSRCNN(fast super-resolution convolutional neural network)、LapSRN(Laplacian pyramid super-resolution network)、VDSR(very deep super-resolution convolutional networks)、DBPN(deep back-projection net-works for super-resolution)和DRN(dual regression networks)等方法的实验结果进行对比.当放大因子为4时,本文算法的峰值信噪比分别为32.29 dB、28.85 dB、27.61 dB、26.16 dB和30.87 dB;在重建图像的可视化分析方面,本文算法相较于对比算法具有更加丰富的纹理和清晰的轮廓.结论 实验结果表明,基于多监督光滑化损失函数方法的图像重建结果与其他超分辨率主流算法相比,在重建图像质量和高频细节处理方面均有所提高.

    超分辨率重建迭代采样多监督映射空间光滑化损失函数

    轻量级注意力约束对齐网络的视频超分重建

    靳雨桐宋慧慧刘青山
    2984-2993页
    查看更多>>摘要:目的 深度学习在视频超分辨率重建领域表现出优异的性能,本文提出了一种轻量级注意力约束的可变形对齐网络,旨在用一个模型参数少的网络重建出逼真的高分辨率视频帧.方法 本文网络由特征提取模块、注意力约束对齐子网络和动态融合分支3部分组成.1)共享权重的特征提取模块在不增加参数量的前提下充分提取输入帧的多尺度语义信息.2)将提取到的特征送入注意力约束对齐子网络中生成具有精准匹配关系的对齐特征.3)将拼接好的对齐特征作为共享条件输入动态融合分支,融合前向神经网络中参考帧的时域对齐特征和原始低分辨率(low-resolution,LR)帧在不同阶段的空间特征.4)通过上采样重建高分辨率(high-resolution,HR)帧.结果 实验在两个基准测试数据集(Vid4(Vimeo-90k)和REDS4(realistic and diverse scenes dataset))上进行了定量评估,与较先进的视频超分辨率网络相比,本文方法在图像质量指标峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity,SSIM)方面获得了更好的结果,进一步提高了超分辨率的细节特征.本文网络在获得相同的PSNR指标的情况下,模型参数减少了近50%.结论 通过极轴约束使得注意力对齐网络模型参数量大大减少,并能够充分捕获远距离信息来进行特征对齐,产生高效的时空特征,还通过设计动态融合机制,实现了高质量的重建结果.

    视频超分辨率(VSR)轻量网络可变形卷积注意力约束动态融合机制残差空洞空间金字塔池化

    面向图像修复的增强语义双解码器生成模型

    王倩娜陈燚
    2994-3009页
    查看更多>>摘要:目的 图像修复技术虽然取得了长足进步,但是当图像中缺失区域较大时,非缺失区域提供的信息量非常有限,从而导致难以产生语义信息一致的内容来增强修复图像和真实图像的视觉一致性;同时图像修复常使用两阶段网络结构,基于该结构的模型不仅需要较长的训练时间,还会导致图像修复效果对第1阶段输出结果依赖性较强.针对上述问题,提出了一种基于双解码器的增强语义一致的图像修复方法.方法 使用双解码器网络结构消除两阶段修复方法中存在的依赖性问题,同时有效缩短模型的训练时间;利用一致性损失、感知损失和风格损失,更好地捕获图像的上下文语义信息,解决图像修复任务中出现的视觉不一致的问题.此外,本文使用了跳跃连接,并引入多尺度注意力模块和扩张卷积,进一步提高了网络的特征提取能力.结果 为了公正地评价,在Cele-bA、Stanford Cars和UCF Google Street View共3个数据集上对具有规则和不规则缺失区域的图像分别进行实验,采用客观评价指标:均方误差(L2)、峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity,SSIM)、FID(Fréchet inception distance)和IS(inception score)进行评价.实验结果表明本文方法修复的图像不仅在视觉上有明显的提升,而且取得了较优的数值.如规则缺失区域下,在CelebA数据集中,本文方法的FID(越小越好)比性能第2的模型在数值上减少了39.2%;在UCF Google Street View数据集中,本文方法的PSNR比其他模型在数值上分别提高了12.64%、6.77%、4.41%.结论 本文方法有效减少了模型的训练时间,同时消除了两阶段网络模型中的依赖性问题,修复的图像也呈现出更好的视觉一致性.

    图像修复语义一致双解码器跳跃连接多尺度注意力模块

    动态模态交互和特征自适应融合的RGBT跟踪

    王福田张淑云李成龙罗斌...
    3010-3021页
    查看更多>>摘要:目的 可见光和热红外模态数据具有很强的互补性,RGBT(RGB-thermal)跟踪受到越来越多的关注.传统RGBT目标跟踪方法只是将两个模态的特征进行简单融合,跟踪的性能受到一定程度的限制.本文提出了一种基于动态交互和融合的方法,协作学习面向RGBT跟踪的模态特定和互补表示.方法 首先,不同模态的特征进行交互生成多模态特征,在每个模态的特定特征学习中使用注意力机制来提升判别性.其次,通过融合不同层次的多模态特征来获得丰富的空间和语义信息,并通过设计一个互补特征学习模块来进行不同模态互补特征的学习.最后,提出一个动态权重损失函数,根据对两个模态特定分支预测结果的一致性和不确定性进行约束以自适应优化整个网络中的参数.结果 在两个基准RGBT目标跟踪数据集上进行实验,数据表明,在RGBT234数据集上,本文方法的精确率(precision rate,PR)为79.2%,成功率(success rate,SR)为55.8%;在GTOT(grayscale-thermal object tracking)数据集上,本文方法的精确率为86.1%,成功率为70.9%.同时也在RGBT234和GTOT数据集上进行了对比实验以验证算法的有效性,实验结果表明本文方法改善了RGBT目标跟踪的结果.结论 本文提出的RGBT目标跟踪算法,有效挖掘了两个模态之间的互补性,取得了较好的跟踪精度.

    模态交互模态融合互补特征学习模态特定信息RGBT目标跟踪

    采用Transformer网络的视频序列表情识别

    陈港张石清赵小明
    3022-3030页
    查看更多>>摘要:目的 相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重.为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法.方法 首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征.然后,通过设计合适的长短时记忆网络(long short-term memory network,LSTM)和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值.最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务.结果 在公开的BAUM-1s(Bah-cesehir University multimodal)和RML(Ryerson Multimedia Lab)视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率,优于其他对比方法的性能.结论 该方法采用端到端的学习方式,能够有效提升视频序列表情识别性能.

    视频序列人脸表情识别时空维度深度残差网络长短时记忆网络(LSTM)端到端Transformer

    对抗型半监督光伏面板故障检测

    卢芳芳牛然杜海舟杨振辰...
    3031-3042页
    查看更多>>摘要:目的 传统的光伏面板故障检测主要依靠人工巡检,效率低下且误检率很高,而流行的基于机器视觉的智能检测方法又面临缺少大量负样例造成故障检测模型准确性偏低的问题.针对上述问题,本文提出一种基于对抗训练的半监督异常检测模型,通过应用梯度中心化(gradient centralization,GC)和Smooth L1损失函数,使模型具有更好的准确性和鲁棒性.方法 通过构建半监督异常检测模型并定义目标函数,将正常的光伏面板图像作为正样例原图输入半监督异常检测模型进行模型训练.然后将待测光伏面板图像输入到训练好的半监督异常检测模型,生成该待测图像对应的重建图像.最后通过计算待测原图像与其重建图像隐空间向量之间的误差来判断该待测光伏面板是否存在异常.结果 本文以浙江某光伏电站采集的光伏面板为实验对象,将本文方法与Pre-trained VGG16(Visual Geometry Group 16-layer network)、AnoGAN(anomaly generative adversarial network)、GANomaly等方法进行比较,AUC(area under curve)分别提高了0.12、0.052和0.033.结论 实验结果证明,本文提出的基于生成对抗网络的半监督异常检测模型大幅提高了光伏面板故障检测的准确率.

    异常检测生成对抗网络(GAN)光伏发电深度卷积梯度中心化(GC)

    融合多尺度特征与全局上下文信息的X光违禁物品检测

    李晨张辉张邹铨车爱博...
    3043-3057页
    查看更多>>摘要:目的 X光图像违禁物品检测一直是安检领域的一个基础问题,安检违禁物品形式各异,尺度变化大,以及透视性导致大量物体堆放时出现重叠遮挡现象,传统图像处理模型很容易出现漏检误检,召回率低.针对以上问题,提出一种融合多尺度特征与全局上下文信息的特征增强融合网络(feature enhancement fusion network,FEF-Net)用于X光违禁物品检测.方法 首先针对特征主干网络darknet53,加入空间坐标的注意力机制,将位置信息嵌入到通道注意力中,分别沿两个空间方向聚合特征,增强特征提取器对违禁目标的特征提取能力,抑制背景噪声干扰.然后,将特征提取主干网络输出的特征编码为1维向量,利用自监督二阶融合获取特征空间像素相关性矩阵,进而获取完整的全局上下文信息,为视觉遮挡区域提供全局信息指导.针对违禁物品尺度不一的问题,提出多尺度特征金字塔融合模块,增加一层小感受野预测特征用于提高对小尺度违禁目标的检测能力.最后,通过融合全局上下文特征信息和局部多尺度细节特征解决违禁物品之间的视觉遮挡问题.结果 在SIXRay-Lite(security inspection X-ray)数据集上进行训练和验证,并与SSD(single shot detection)、Faster R-CNN、RetinaNet、YOLOv5(you only look once)和ACMNet(asymmetrical convolution multi-view neural network)模型进行了对比实验.结果 表明,本文模型在SIXray-Lite数据集上的mAP(mean average precision)达到85.64%,特征增强融合模块和多尺度特征金字塔融合模块较原有模型分别提升了6.73%和5.93%,总体检测精度较原有检测网络提升了11.24%.结论 提出的特征增强融合检测模型能够更好地提取显著差异特征,降低背景噪声干扰,提高对多尺度以及小型违禁物品的检测能力.同时利用全局上下文特征信息和多尺度局部特征相结合,有效地缓解了违禁物品之间的视觉遮挡现象,在保证实时性的同时有效地提高了模型的整体检测精度.

    违禁品检测X光图像特征增强融合注意力机制多尺度融合全局上下文信息

    高速公路场景的车路视觉协同行车安全预警算法

    汪长春高尚兵蔡创新陈浩霖...
    3058-3067页
    查看更多>>摘要:目的 基于视觉的车辆行驶安全性预警分析技术是目前车辆辅助驾驶的一个重要研究方向,对前方多车道快速行驶的车辆进行精准的跟踪定位并建立稳定可靠的安全距离预警模型是当前研究难点.为此,提出面向高速公路场景的车路视觉协同行车安全预警算法.方法 首先提出一种深度卷积神经网络SF_YOLOv4(single fea-ture you look only once v4)对前方车辆进行精准的检测跟踪;然后提出一种安全距离模型对车辆刹车距离进行计算,并根据单目视觉原理计算车辆间距离;最后提出多车道预警模型对自车行驶过程的安全性进行分析,并对司机给予相应安全提示.结果 实验结果表明,提出的SF_YOLOv4算法对车辆检测的准确率为93.55%,检测速度(25帧/s)领先对比算法,有效降低了算法的时间和空间复杂度;提出的安全距离模型计算的不同类型车辆的刹车距离误差小于0.1 m,与交通法建议的距离相比,本文方法计算的安全距离精确度明显提升;提出的多车道安全预警模型与马自达6(ATENZA)自带的前方碰撞系统相比,能对相邻车道车辆进行预警,并提前0.7 s对前方变道车辆发出预警.结论 提出的多车道预警模型充分考虑高速公路上相邻车道中的车辆位置变化发生的碰撞事故;本文方法与传统方法相比,具有较高实用性,其预警效果更加客观,预警范围更广,可以有效提高高速公路上的行车安全.

    安全性分析防碰撞预警车辆目标检测安全距离模型YOLOv4车距计算

    结合卷积神经网络与曲线拟合的人体尺寸测量

    马燕殷志昂黄慧张玉萍...
    3068-3081页
    查看更多>>摘要:目的 人体尺寸测量是服装制作中的一个重要环节.非接触式人体测量具有效率高、方便快捷的优点,但存在测量精准度较低、对设备和外界环境要求高等问题.为进一步改进这些问题,本文基于卷积神经网络建立模型,相继提出人体分割和关键点检测的方法、基于Bezier曲线的人体肩宽测量方法和基于双椭圆拟合的人体围度测量方法.方法 通过摄像头获取人体的正面、侧面及背面图像;利用Deeplabv3+算法对人体图像进行分割获得人体轮廓,利用OpenPose算法对人体关键点进行检测及定位,利用肩部端点处的角度特征并结合人体肩部关节点信息确定肩部端点,利用肩部曲线与Bezier曲线的相似性通过计算肩部Bezier曲线的长度得到肩宽,通过关键点信息确定胸围、腰围及臀围的宽度和厚度,并建立围度曲线的双椭圆拟合模型,采用线性回归法训练得到拟合模型中的参数,最后利用双椭圆拟合曲线的周长得到人体围度.结果 根据本文方法对100位被测者进行肩宽计算,对132位被测者进行人体围度计算,平均绝对误差均在3 cm以内,符合国家测量标准,且整套方法操作方便,结果稳定.结论 实验验证了本文方法在人体尺寸测量中的精度,降低了非接触式人体测量法对外界环境和设备的依赖程度,提高了系统的鲁棒性,为非接触式人体测量走向实用化打下了坚实基础.

    OpenPoseDeeplabv3+Bezier曲线曲线拟合人体测量

    U-Net支气管超声弹性图像纵膈淋巴结分割

    刘羽吴蓉蓉唐璐宋宁宁...
    3082-3091页
    查看更多>>摘要:目的 超声弹性成像技术已逐步应用于支气管淋巴结良恶性的诊断,帮助确定肺癌分期.在支气管超声弹性图像中,淋巴结区域的精确定位对诊断准确度具有重要影响,但通常依赖专业医师的手动分割,费时费力.为此,本文设计了一种注意力上下文编码器网络(attention context encoder network,ACE-Net).方法 本文网络模型包括编码器、上下文提取器和解码器3部分.使用在ImageNet数据集上预训练且去掉平均池化层和全连接层的34层残差网络ResNet-34作为编码器提取特征,上下文提取器从编码器的输出中进一步提取高级语义信息,同时保留尽可能多的空间信息,基于AG(attention gate)的解码器可以抑制输入图像中的不相关区域,同时突出对当前任务更关键的特征.结果 实验在本文收集的包含支气管超声弹性图像及对应分割标签的数据集上进行,与6种典型的U-Net结构深度网络模型的分割性能进行对比,数据集中的每幅图像中的淋巴结都由专业医师手动分割标注.基础U-Net网络得到淋巴结分割结果的Dice系数、敏感度和特异度分别为0.8207、85.08%和96.82%,其他改进网络的分割性能在此基础上均有一定提高,本文方法的Dice系数、敏感度和特异度分别为0.8451、87.92% 和97.04%,Dice系数和敏感度在所有方法中取得了最优值,特异度取得了次优值.结论 以U-Net为代表的深度学习模型在支气管超声弹性图像淋巴结分割问题中具有很大潜力,将上下文提取器和注意力机制融入U-Net网络可以一定程度提升分割精度.本文收集的数据集将有助于推动支气管超声弹性图像淋巴结分割问题的研究.

    超声弹性成像淋巴结分割深度学习U-Net上下文提取器注意力机制