首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    沉浸式环境中多场景视觉提示信息可视化方法综述

    任洋甫李志强张松海
    1-21页
    查看更多>>摘要:沉浸式环境是通过虚拟现实(virtual reality,VR)等技术为用户呈现趋近于真实的环境体验。虚拟现实是通过计算机生成现实世界的模拟环境,可以为用户提供丰富的沉浸感、交互性和想象力体验。用户在虚拟现实场景中,通过视觉可以快速熟悉环境,获取场景内外的信息,还可以通过视觉完成与场景的交互,增强用户的感知。增强现实(augmented reality,AR)会将虚拟信息放置在真实场景中,用户可以与真实场景中的虚拟信息进行交互。为了充分了解视觉提示信息在虚拟现实等不同沉浸式场景中的研究,探究视觉信息提示方法的本源,本文按照信息提示位置的不同、功能和应用的不同进行区分,首先综述近年来在普通二维场景中的方法,通过技术对比和改进深入讨论了在三维虚拟现实或增强现实环境下对视觉提示信息可视化方法的研究。分析在虚拟现实或增强现实环境下与普通二维场景中显示的异同,同时展开视觉提示信息在多场景下对用户注意力等使用功能方面的研究介绍,以及全景视频观看等实际场景中的应用研究说明。本文通过对二维和三维场景视野外、场景中标签布局和注意力引导,以及全景视频观看等实际应用中的讨论,可以更详细地展示视觉提示信息在沉浸式环境和多场景中的研究前景与发展方向。

    沉浸式环境虚拟现实(VR)增强现实(AR)多场景视觉提示信息全景视频注意力引导

    图像重定向质量评价的研究进展

    胡波谢国庆李雷达李静...
    22-44页
    查看更多>>摘要:随着移动显示设备的普及,人们可以使用不同的终端设备来获取图像信息。为了适配不同尺寸的设备,图像重定向技术应运而生,并成为当前研究的热点。尽管该技术在近年来取得了长足进步,但没有算法能够保证在不降低视觉内容质量的前提下满足多种显示设备的要求。换句话说,在图像重定向的过程中,不可避免地会引入失真,降低用户的视觉体验。因此,如何客观、准确地评价重定向图像质量对图像重定向算法的选择、优化及发展至关重要。当前,研究人员已针对图像重定向质量评价开展了一系列研究,并取得了一定的研究成果。但是缺乏对图像重定向质量评价的综述,因此本文对当前图像重定向质量评价的研究进展进行了较为全面的回顾和总结。首先简单介绍了图像重定向以及传统图像质量评价;然后分别介绍图像重定向质量评价的数据集和客观质量评价方法,将现有的客观质量评价分为基于传统特征相似性的方法和基于图像配准的方法两类,并分析了两类方法的优缺点;接着在3个数据集上对具有代表性的算法的性能进行了对比分析;最后,总结了当前图像重定向质量评价领域面临的问题和挑战,并指明了未来可能的发展方向。

    图像质量评价(IQA)图像重定向图像配准内容损失几何失真

    从图卷积网络到图散射网络:回顾与展望

    柳世禹戴文睿李成林熊红凯...
    45-64页
    查看更多>>摘要:在图像与图形处理中,非欧氏空间数据与传统欧氏空间数据共同构成了数据的不同表达形式。随着面向图像、音频等传统信号的处理技术已经发展了数十年并趋于成熟,诸如图等非欧氏空间数据的兴起,对非欧氏空间的数据处理提取提出了更高的要求。图卷积网络的出现将面向传统信号的深度学习网络模型和卷积操作拓展到了图上,在一定程度上解决了学术界和工业界对图信号处理的需求。然而,空域特征聚合的图卷积网络容易产生过平滑问题。本文回顾了从图卷积网络到图散射网络的发展进程,分别梳理空域图卷积网络和谱域图卷积网络;并以图卷积网络为桥梁引出了图散射网络,比较和总结了图散射网络的前沿的理论和方法。传统的谱域图卷积网络虽然可以通过滤波器设计避免过平滑问题,但由于可训练参数较少、输出特征比较单一,往往存在表达能力不足的问题。图散射网络的提出很好地解决了图卷积网络中存在的问题。一方面,图散射变换将面向传统信号的散射变换操作拓展到图信号处理上,通过多尺度小波分解提取图信号的多分辨率特征,在保证网络稳定性的前提下解决了空域图卷积网络的特征过平滑问题;另一方面,相较于传统的谱域图卷积网络,图散射网络输出能够提取多尺度带通特征,增强模型的表达能力,提高了图分类等任务的结果。最后分析了现有图散射技术和理论的局限性,并提出了未来图散射网络可能的研究方向。

    深度学习图卷积网络(GCN)图散射网络(GSN)表征学习稳定性信号扰动拓扑扰动

    LLFlowGAN:以生成对抗方式约束可逆流的低照度图像增强

    黄颖彭慧李昌盛高胜美...
    65-79页
    查看更多>>摘要:目的 现有低照度图像增强方法大多依赖于像素级重建,旨在学习低照度输入和正常曝光图像之间的确定性映射,没有对复杂的光照分布进行建模,从而导致了不适当的亮度及噪声。大多图像生成方法仅使用一种(显式或隐式)生成模型,在灵活性和效率方面有所限制。为此,改进了一种混合显式—隐式的生成模型,该模型允许同时进行对抗训练和最大似然训练。方法 首先设计了一个残差注意力条件编码器对低照度输入进行处理,提取丰富的特征以减少生成图像的色差;然后,将编码器提取到的特征作为可逆流生成模型的条件先验,学习将正常曝光图像的分布映射为高斯分布的双向映射,以此来模拟正常曝光图像的条件分布,使模型能够对多个正常曝光结果进行采样,生成多样化的样本;最后,利用隐式生成对抗网络(generative adversarial network,GAN)为模型提供约束,改善图像的细节信息。特别地,两个映射方向都受到损失函数的约束,因此本文设计的模型具有较强的抗模式崩溃能力。结果 实验在2个数据集上进行训练与测试,在低照度(low-light dataset,LOL)数据集与其他算法对比,本文算法在峰值信噪比(peak signal-to-noise ratio,PSNR)上均有最优表现、图像感知相似度(learned perceptual image patch similarity,LPIPS)、在结构相似性(structural similarity index measure,SSIM)上取得次优表现0。01,在无参考自然图像质量指标(natural image quality evaluator,NIQE)上取得较优结果。具体地,相较于18种现有显著性模型中的最优值,本文算法 PSNR提高 0。84 dB,LPIPS 降低 0。02,SSIM 降低 0。01,NIQE值降低 1。05。在 MIT-Adobe FiveK(Massa-chu-setts Institute of Technology Adobe FiveK)数据集中,与5种显著性模型进行对比,相较于其中的最优值,本文算法PSNR提高0。58 dB,SSIM值取得并列第一。结论 本文提出的流生成对抗模型,综合了显式和隐式生成模型的优点,更好地调整了低照度图像的光照,抑制了噪声和伪影,提高了生成图像的视觉感知质量。

    低照度图像增强流模型生成对抗网络(GAN)双向映射复杂光照分布

    几何联合分段亮度的线阵图像配准

    房磊史泽林刘云鹏李晨曦...
    80-94页
    查看更多>>摘要:目的 以非平行于目标的姿态成像时,线阵相机采集的图像的几何变换规律与面阵相机不同,这导致面阵图像的几何变换模型及其直接配准方法无法实现线阵图像的配准;同时,亮度恒常假设无法解决大视场镜头引起的图像亮度衰减问题。因此,提出了一种几何联合分段亮度的线阵图像直接配准方法。方法 根据线阵图像的几何变换模型和分段增益—偏置亮度模型,将线阵图像的配准问题表示为一个非线性最小二乘问题。采用高斯一牛顿法对配准问题中的几何变换参数和亮度变换参数联合进行优化;此外,针对以单位变换为初始值时配准图像存在较大几何误差致使优化不收敛,设计了一种初始值快速搜索策略。结果 实验数据包含本文采集的线阵图像数据集和真实列车线阵图像。配准结果表明,采用本文方法配准后的标注点坐标均方根误差均小于1个像素,优于采用面阵图像几何变换模型的直接配准方法。算法对亮度变化具有更强的鲁棒性,提高了线阵图像配准的成功率。结论 本文提出的几何联合分段亮度线阵图像配准方法可以精确、鲁棒地对齐非平行姿态线阵相机所采集的图像。

    线阵相机线阵图像直接配准方法几何变换亮度变换

    利用可变预测的密文域可逆信息隐藏

    陈佳妮徐达文
    95-110页
    查看更多>>摘要:目的 随着云计算和云存储场景中用户隐私保护的需求日益增加,密文域图像可逆信息隐藏(reversible data hiding in encrytpted images,RDHEI)受到了广泛关注。然而大多数RDHEI算法以提升嵌入率和保障图像加密安全性为目的,复杂化图像的预处理操作。为此,提出一种基于可变预测和多MSB(most significant bit)替换的密文域图像可逆信息隐藏算法。方法 提出可变预测位平面翻转策略,用相邻像素值迭代预测当前像素值的多位最高有效位。若预测值比翻转值更接近目标像素值,则当前预测位平面可以用于信息隐藏,将其比特值修改为0。同时,用位置图自适应地标记可嵌入像素点。所生成的位置图具有稀疏特征,可以使用算术编码无损压缩。最后,对预留空间后的图像进行加密,通过多MSB替换的策略嵌入隐秘信息和压缩位置图。结果 经实验测试,本文算法在BOWS-2(break our watermarking system 2nd)数据集上平均嵌入率为2。953 bit/像素,并记录了 1 000幅图像在预处理前后的每个位平面信息熵,其中最高位平面的信息熵比原始MSB下降了 0。76,说明可变预测位平面翻转将多个高位平面翻转为0,使其处于稀疏状态,有效增加了嵌入空间。结论 本文算法利用明文图像的空间相关性,对高位平面进行翻转与替换,从而为隐秘信息预留了更多的嵌入空间。所提方法可无损恢复原始图像,且无差错提取隐秘信息。

    可逆信息隐藏图像加密可变预测多MSB替换自适应位置图

    注意力引导的三流卷积神经网络用于微表情识别

    赵明华董爽爽胡静都双丽...
    111-122页
    查看更多>>摘要:目的 微表情识别在心理咨询、置信测谎和意图分析等多个领域都有着重要的应用价值。然而,由于微表情自身具有动作幅度小、持续时间短的特点,到目前为止,微表情的识别性能仍然有很大的提升空间。为了进一步推动微表情识别的发展,提出了一种注意力引导的三流卷积神经网络(attention-guided three-stream convolutional neural network,ATSCNN)用于微表情识别。方法 首先,对所有微表情序列的起始帧和峰值帧进行预处理;然后,利用TV-L1(total variation-L1)能量泛函提取微表情两帧之间的光流;接下来,在特征提取阶段,为了克服有限样本量带来的过拟合问题,通过3个相同的浅层卷积神经网络分别提取输入3个光流值的特征,再引入卷积块注意力模块以聚焦重要信息并抑制不相关信息,提高微表情的识别性能;最后,将提取到的特征送入全连接层分类。此外,整个模型架构采用SELU(scaled exponential linear unit)激活函数以加快收敛速度。结果 本文在微表情组合数据集上进行 LOSO(leave-one-subject-out)交叉验证,未加权平均召回率(unweighted average recall,UAR)以及未加权 F1-Score(unweighted F1-score,UF1)分别达到了 0。735 1和0。720 5。与对比方法中性能最优的Dual-Inception模型相比,UAR和UF1分别提高了 0。060 7和0。068 3。实验结果证实了本文方法的可行性。结论 本文方法所提出的微表情识别网络,在有效缓解过拟合的同时,也能在小规模的微表情数据集上达到先进的识别效果。

    微表情识别光流三流卷积神经网络卷积块注意力模块(CBAM)SELU激活函数

    融合ViT与对比学习的面部表情识别

    崔鑫宇何翀赵宏珂王美丽...
    123-133页
    查看更多>>摘要:目的 面部表情识别是计算机视觉领域中的重要任务之一,而真实环境下面部表情识别的准确度较低。针对面部表情识别中存在的遮挡、姿态变化和光照变化等问题导致识别准确度较低的问题,提出一种基于自监督对比学习的面部表情识别方法,可以提高遮挡等变化条件下面部表情识别的准确度。方法 该方法包含对比学习预训练和模型微调两个阶段。在对比学习预训练阶段,改进对比学习的数据增强方式及正负样本对对比次数,选取基于Transformer的视觉Transformer(vision Transformer,ViT)网络作为骨干网络,并在ImageNet数据集上训练模型,提高模型的特征提取能力。模型微调阶段,采用训练好的预训练模型,用面部表情识别目标数据集微调模型获得识别结果。结果 实验在4类数据集上与13种方法进行了比较,在RAF-DB(real-world affective faces database)数据集中,相比于 Face2Exp(combating data biases for facial expression recognition)模型,识别准确度提高了 0。48%;在FER-Plus(facial expression recognition plus)数据集中,相比于 KTN(knowledgeable teacher network)模型,识别准确度提高了 0。35%;在 AffectNet-8 数据集中,相比于 SCN(self-cure network)模型,识别准确度提高了 0。40%;在 AffectNet-7 数据集中,相比于DACL(deep attentive center loss)模型,识别准确度略低0。26%,表明了本文方法的有效性。结论 本文所提出的人脸表情识别模型,综合了对比学习模型和ViT模型的优点,提高了面部表情识别模型在遮挡等条件下的鲁棒性,使面部表情识别结果更加准确。

    表情识别对比学习自监督学习Transformer正负样本对

    融合注意力机制与多检测层结构的伪装目标检测

    赖杰彭锐晖孙殿星黄杰...
    134-146页
    查看更多>>摘要:目的 伪装目标是目标检测领域一类重要研究对象,由于目标与背景融合度较高、视觉边缘性较差、特征信息不足,常规目标检测算法容易出现漏警、虚警,且检测精度不高。针对伪装目标检测的难点,基于YOLOv5(you only look once)算法提出了一种基于多检测层与自适应权重的伪装目标检测算法(algorithm for detecting camouflage targets based on multi-detection layers and adaptive weight,MAH-YOLOv5)。方法 在网络预测头部中增加一个非显著目标检测层,提升网络对于像素占比极低、语义信息不足这类目标的感知能力;在特征提取骨干中融合注意力机制,调节卷积网络对特征信息不足目标的权重配比,使其更关注待检测的伪装目标;在网络训练过程中使用多尺度训练策略,进一步提升模型鲁棒性与泛化能力;定义了用于军事目标检测领域的漏警、虚警指标,并提出伪装目标综合检测指数。结果 实验在课题组采集的伪装数据集上进行训练和验证。结果 表明,本文方法在自制数据集上的平均精度均值(mean average precision,mAP)达到76。64%,较YOLOv5算法提升3。89%;漏检率8。53%、虚警率仅有0。14%,较YOLOv5算法分别降低2。75%、0。56%;伪装目标综合检测能力指数高达88。17%。与其他对比算法相比,本文方法的综合检测能力指数仅次于最先进的YOLOv8等算法。结论 本文方法在识别精度、漏检率等指标上均有较大改善,具有最优的综合检测能力,可为战场伪装目标的快速高精度检测识别提供技术支撑和借鉴参考。

    伪装目标检测非显著目标检测层注意力机制多尺度训练综合检测指数

    合成数据驱动目标姿态追踪的快速收敛网络

    彭泓王骞贾迪赵金源...
    147-162页
    查看更多>>摘要:目的 受遮挡与累积误差因素的影响,现有目标6维(6 dimensions,6D)姿态实时追踪方法在复杂场景中表现不佳。为此,提出了一种高鲁棒性的刚体目标6D姿态实时追踪网络。方法 在网络的整体设计上,将当前帧彩色图像和深度图像(red green blue-depth map,RGB-D)与前一帧姿态估计结果经升维残差采样滤波和特征编码处理获得姿态差异,与前一帧姿态估计结果共同计算目标当前的6D姿态;在残差采样滤波模块的设计中,采用自门控swish(searching for activation functions)激活函数保留目标细节特征,提高目标姿态追踪的准确性;在特征聚合模块的设计中,将提取的特征分解为水平与垂直两个方向分量,分别从时间和空间上捕获长程依赖并保留位置信息,生成一组具有位置与时间感知的互补特征图,加强目标特征提取能力,从而加速网络收敛。结果 实验选用YCB-Video(Yale-CMU-Berkeley-video)和 YCBInEoAT(Yale-CMU-Berkeley in end-of-arm-tooling)数据集。实验结果表明,本文方法追踪速度达到90。9 Hz,追踪精度模型点平均距离(average distance of model points,ADD)和最近点的平均距离(average closest point distance,ADD-S)分别达到93。24及95。84,均高于同类相关方法。本文方法的追踪精度指标ADD和ADD-S在追踪精度和追踪速度上均领先于目前其他的刚体姿态追踪方法,与se(3)-TrackNet网络相比,本文方法在6 000组少量合成数据训练的条件下分别高出25。95和30。91,在8 000组少量合成数据训练的条件下分别高出31。72和28。75,在10 000组少量合成数据训练的条件下分别高出35。57和21。07,且在严重遮挡场景下能够实现对目标的高鲁棒6D姿态追踪。结论 本文网络在合成数据驱动条件下,可以更好地完成实时准确追踪目标6D姿态,网络收敛速度快,实验结果验证了本文方法的有效性。

    6D姿态估计实时追踪合成数据图像处理特征融合