首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    全像素双核成像技术及应用研究综述

    戴玉超章飞宇潘利源项末初...
    3395-3414页
    查看更多>>摘要:全像素双核(dual-pixel,DP)自动对焦(dual-pixel CMOS auto focus,DP CMOS AF)采用混合检测自动对焦,其在每个像素配备两个光电二极管,使每个像素既参与对焦又参与成像,克服了传统相位检测自动对焦和反差检测自动对焦技术的缺点.根据离焦视差估计图像合焦镜头所需移动的距离,DP自动对焦具有更快的对焦速度和更高的对焦精度,因此广泛应用在手持设备中(如手机相机、单反相机等).由于全像素双核传感器将每个像素分成两半,该传感器一次拍摄即可得到两幅图像.这两幅图像(全像素双核图像对)可以看做一个具有相同曝光时间和严格校正的小基线立体图像对.该图像对的视差与图像模糊程度相对应,只在离焦区域存在视差.全像素双核传感器不仅用于自动对焦,而且可以用于深度估计、散焦去模糊和反射去除等方面.本文系统地综述了全像素双核传感器的自动对焦、成像原理及研究现状,并进一步展望其未来发展.1)对自动对焦技术进行介绍,对比了传统对焦与全像素双核对焦;2)详细分析了全像素双核传感器的成像原理、成像模型及特点;3)系统地介绍了全像素双核在计算机视觉领域应用的最新进展,从深度估计、反射去除和离焦模糊去除等方面进行全面阐述及分析;4)适当的数据集是基于深度学习方法的基础,对目前的全像素双核数据集进行了介绍;5)分析了全像素双核在计算机视觉领域面临的挑战与机遇,对未来的全像素双核应用方向进行了讨论与展望.

    全像素双核(DP)自动对焦深度学习相机成像反射去除深度估计

    深度学习汉字生成与字体风格迁移综述

    王晨吴国华姚晔任一支...
    3415-3428页
    查看更多>>摘要:汉字字体风格迁移旨在保证在语义内容不变的同时对汉字的字形作相应的转换.由于深度学习在图像风格迁移任务中表现出色,因此汉字生成可以从汉字图像入手,利用此技术实现汉字字体的转换,减少字体设计的人工干预,减轻字体设计的工作负担.然而,如何提高生成图像的质量仍是一个亟待解决的问题.本文首先系统梳理了当前汉字字体风格迁移的相关工作,将其分为3类,即基于卷积神经网络(convolutional neural network,CNN)、自编码器(auto-encoder,AE)和生成对抗网络(generative adversarial network,GAN)的汉字字体风格迁移方法.然后,对比分析了22种汉字字体风格迁移方法在数据集规模方面的需求和对不同字体类别转换的适用能力,并归纳了这些方法的特点,包括细化汉字图像特征、依赖预训练模型提取有效特征、支持去风格化等.同时,按照汉字部首检字表构造包含多种汉字字体的简繁体汉字图像数据集,并选取代表性的汉字字体风格迁移方法进行对比实验,实现源字体(仿宋)到目标字体(印刷体和手写体)的转换,展示并分析Rewrite2、zi2zi、TET-GAN(texture effects transfer GAN)和Unet-GAN等4种代表性汉字字体风格迁移方法的生成效果.最后,对该领域的现状和挑战进行总结,展望该领域未来发展方向.由于汉字具有数量庞大和风格多样的特性,因此基于深度学习的汉字生成与字体风格迁移技术还不够成熟.未来该领域将从融合汉字的风格化与去风格化为一体、有效提取汉字特征等方面进一步探索,使字体设计工作向更灵活、个性化的方向发展.

    汉字字体风格迁移图像生成卷积神经网络(CNN)自编码器(AE)生成对抗网络(GAN)

    面向房颤分析的左心房分割方法综述

    赵春艳吴清余太慧蔡兆熙...
    3429-3449页
    查看更多>>摘要:房颤是一种起源于心房的心脏疾病.据估计全球有超过3000万人受其影响,虽然通过治疗可以降低患病风险,但房颤通常是隐匿的,很难及时诊断和干预.房颤的诊断方法主要有心脏触诊、光学体积描记术、血压监测振动法、心电图和基于影像的方法.房颤类型主要为阵发性房颤,前4种诊断方法不一定能捕捉到房颤发作,而且诊断周期长、成本高、准确率低及容易受医生的影响.左心房的解剖结构为房颤病理和研究进展提供了重要信息,基于医学影像的房颤分析需要准确分割左心房,通过分割结果计算房颤的临床指标,例如,射血分数、左心房体积、左心房应变及应变率,然后对左心房功能进行定量评估.采用影像的方法得出的诊断结果不易受人为干扰且具有处理大批量患者数据的能力,辅助医生及早发现房颤,对患者进行干预治疗,提高对房颤症状和临床诊断的认识,在临床实践中具有重大意义.本文将已有的分割方法归纳为传统方法、基于深度学习的方法以及传统与深度学习结合的方法.这些方法得到的结果为后续房颤分析提供了依据,但目前的分割方法许多都是半自动的,分割结果不够精确,训练数据集较小且依赖手工标注.本文总结了各种方法的优缺点,归纳了目前已有的公开数据集和房颤分析的临床应用,并展望了未来的发展趋势.

    房颤(AF)医学图像深度学习(DL)左心房分割左心房功能

    自适应非局部3维全变分彩色图像去噪

    李潇瑶王炼红周怡聪章兢...
    3450-3460页
    查看更多>>摘要:目的 许多彩色图像去噪算法未充分利用图像局部和非局部的相似性信息,并且忽略了真实噪声在彩色图像不同区域内分布的差异,对不同图像块和不同颜色通道都进行同等处理,导致去噪图像中同时出现过平滑和欠平滑现象.针对这些问题,本文提出一种自适应非局部3维全变分去噪算法.方法 利用一个非局部3维全变分正则项获取彩色图像块内和块间的相似性信息,同时在优化模型的保真项内嵌入一个自适应权重矩阵,该权重矩阵可以根据每次迭代得到的中间去噪结果的剩余噪声来调整算法在每个图像块、每个颜色分量以及每次迭代中的去噪强度.结果 通过不同的高斯噪声添加方式得到两个彩色噪声图像数据集.将本文算法与其他6个基于全变分的算法进行比较,采用峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性(structural similarity,SSIM)作为客观评价指标.相比于对比算法,本文算法在两个噪声图像数据集上的平均PSNR和SSIM分别提高了0.16~1.76 dB和0.12%~6.13%,并获得了更好的图像视觉效果.结论 本文去噪算法不仅更好地兼顾了去噪与保边功能,而且提升了稳定性和鲁棒性,显示了在实际图像去噪中的应用潜力.

    彩色图像去噪高斯噪声非局部相似性3维全变分自适应权重

    低比特率语音流大容量分层隐写方法

    苏兆品张羚张国富
    3461-3475页
    查看更多>>摘要:目的 基于语音增强和丢包补偿等技术的互联网低比特率编解码器(internet low bit rate codec,iLBC)在丢包率较高的网络环境下仍具有很好的语音质量.如何在隐写容量、不可感知性和抗检测性之间达到理想均衡是iLBC音频隐写面临的难点.为此,本文提出一种基于分层的iLBC语音大容量隐写方法.方法 首先分析iLBC的编码比特流结构.然后基于主观语音质量评估指标PESQ-MOS(perceptual evaluation of speech quality-mean opinion score)和客观语音质量评估指标MCD(mel cepstral distortion)分析在线性频谱频率系数矢量量化过程、动态码本搜索过程和增益量化过程进行隐写对语音质量的影响,提出一种隐写位置分层方法,在增益量化过程和动态码本搜索过程按照嵌入容量和层次的优先级依次进行隐写,尽可能降低失真;对不能嵌满的层,提出一种基于Logistic混沌映射的嵌入位置选择方法,提升隐写的随机性和安全性.最后采用量化索引调制方法进行秘密信息嵌入,进一步提升隐写的安全性.结果 在中英文语音数据集SSD(steganalysis-speech-dataset)上的对比实验结果表明,本文提出的分层隐写方法在隐写容量上提升了1倍,且保持了较好的不可感知性,没有因为写入额外秘密信息而导致音频过度失真.此外,本文方法在30 ms音频帧上嵌入量小于等于18 bit、在20 ms音频帧上嵌入量小于等于12 bit时可以很好地抵抗基于深度学习的音频隐写分析器的检测.结论 本文方法可以充分挖掘iLBC语音的隐写潜能,在提升隐写容量的前提下,仍能保证良好的不可感知性和抗检测性.

    互联网低比特率编解码器(iLBC)量化索引调制分层隐写嵌入位置大容量

    掩膜融合下的人脸图像质量评价方法

    李雷达殷杨涛吴金建董伟生...
    3476-3490页
    查看更多>>摘要:目的 人脸识别技术已经在众多领域中得到广泛应用,然而现有识别方法对于人脸图像的质量要求普遍较高,低质量图像会严重影响系统的识别性能,产生误判.人脸图像质量评价方法可用于高质量图像的筛选,对改善人脸识别系统的性能有重要作用.不同于传统的图像质量评价,人脸图像质量评价是一种可用性评价,目前对其研究较少.人们在进行人脸识别时往往主要通过眼睛、鼻子、嘴等关键区域;基于此,本文提出了一种基于掩膜的人脸图像质量无参考评价方法,通过挖掘脸部关键区域对人脸识别算法的影响计算人脸图像质量.方法 人脸识别方法通常需要比较输入人脸图像和高质量基准图像之间的特征相似度;本文从另一个角度出发,在输入人脸图像的基础上构造低可用性图像作为伪参考,并通过计算输入人脸图像和伪参考图像间的相似性获得输入人脸图像的质量评价分数.具体地,对一幅输入的人脸图像,首先对其关键区域添加掩膜获得低可用性质量的掩膜人脸图像,然后将输入图像和掩膜图像输入特征提取网络以获得人脸特征,最后计算特征间的距离获得输入人脸图像的质量分数.结果 用AOC(错误拒绝曲线围成的区域面积)作为评估指标,在5个数据集上将本文方法与其他主流的人脸质量评价方法进行了充分比较,在LFW(labeled faces in the wild)数据集中比性能第2的模型提升了14.8%,在CelebA(celebFaces attribute)数据集中提升了0.1%,在DDFace(diversified distortion face)数据集中提升了2.9%,在VGGFace2(Visual Geometry Group Face2)数据集中提升了3.7%,在CASIA-WebFace(Institute of Auto-mation,Chinese Academy of Science-Website Face)数据集中提升了4.9%.结论 本文提出的基于掩膜的人脸图像质量评价方法,充分利用了人脸识别的关键性区域,将人脸识别的特点融入到人脸图像质量评价算法的设计中,能够在不需要参考图像的条件下准确预测出不同失真程度下的人脸图像质量分数,并且性能优于目前的主流方法.

    人脸识别图像质量评价人脸图像可用性质量无参考掩膜伪参考

    结合改进卷积神经网络与通道加权的轻量级表情识别

    梁华刚薄颖雷毅雄喻子鑫...
    3491-3502页
    查看更多>>摘要:目的 表情是人机交互过程中重要的信息传递方式,因此表情识别具有重要的研究意义.针对目前表情识别方法存在背景干扰大、网络模型参数复杂、泛化性差等问题,本文提出了一种结合改进卷积神经网络(convolu-tional neural network,CNN)与通道加权的轻量级表情识别方法.方法 首先,采用标准卷积和深度可分离卷积组合神经网络结构,再利用全局平均池化层作为输出层,简化网络的复杂程度,有效降低网络参数;其次,网络引入SE(squeeze-and-excitation)模块进行通道加权,通过在不同卷积层后设置不同的压缩率增强表情特征提取能力,提升网络模型精度;最后,用softmax分类函数实现各类表情的准确分类.结果 本文网络参数量为6108519,相较于识别性能较好的Xception神经网络参数减少了63%,并且通过对网络模型的实时性测试,平均识别速度可达128帧/s.在5个公开的表情数据集上验证网络模型对7种表情的识别效果,与7种卷积神经网络方法相比,在FER2013(Facial Expression Recognition 2013)、CK+(the extended Cohn-Kanade)和JAFFE(Japanses Female Facial Expres-sion)3个表情数据集的识别精确度提高了5.72%、0.51%和0.28%,在RAF-DB(Real-world Affective Faces Data-base)、AffectNet这两个in-the-wild表情数据库的识别精确度分别提高了2.04% 和0.68%.结论 本文提出的轻量级表情识别方法在不同通道具有不同的加权能力,获取更多表情关键特征信息,提高了模型的泛化性.实验结果表明,本文方法在简化网络的复杂程度、减少计算量的同时能够准确识别人脸表情,能够有效提升网络的识别能力.

    表情识别图像处理卷积神经网络(CNN)深度可分离卷积全局平均池化SE模块

    融合多重注意力机制的人眼注视点预测

    孔力胡学敏汪顶刘艳芳...
    3503-3515页
    查看更多>>摘要:目的 经典的人眼注视点预测模型通常采用跳跃连接的方式融合高、低层次特征,容易导致不同层级之间特征的重要性难以权衡,且没有考虑人眼在观察图像时偏向中心区域的问题.对此,本文提出一种融合注意力机制的图像特征提取方法,并利用高斯学习模块对提取的特征进行优化,提高了人眼注视点预测的精度.方法 提出一种新的基于多重注意力机制(multiple attention mechanism,MAM)的人眼注视点预测模型,综合利用3种不同的注意力机制,对添加空洞卷积的ResNet-50模型提取的特征信息分别在空间、通道和层级上进行加权.该网络主要由特征提取模块、多重注意力模块和高斯学习优化模块组成.其中,空洞卷积能够有效获取不同大小的感受野信息,保证特征图分辨率大小的不变性;多重注意力模块旨在自动优化获得的低层丰富的细节信息和高层的全局语义信息,并充分提取特征图通道和空间信息,防止过度依赖模型中的高层特征;高斯学习模块用来自动选择合适的高斯模糊核来模糊显著性图像,解决人眼观察图像时的中心偏置问题.结果 在公开数据集SALICON(saliency in con-text)上的实验表明,提出的方法相较于同结构的SAM-Res(saliency attention modal)模型以及DINet(dilated inception network)模型在相对熵(Kullback-Leibler divergence,KLD)、sAUC(shuffled area under ROC curve)和信息增益(informa-tion gain,IG)评价标准上分别提高了33%、0.3% 和6%;53%、0.5% 和192%.结论 实验结果表明,提出的人眼注视点预测模型能通过加权的方式分别提取空间、通道、层之间的特征,在多数人眼注视点预测指标上超过了主流模型.

    人眼注视点预测多重注意力层注意力通道注意力空间注意力高斯学习

    面向可见光—近红外图像融合的植被与天空概率模板生成

    童璨应佳成沈会良
    3516-3529页
    查看更多>>摘要:目的 近红外(near-infrared,NIR)图像在夜视和去雾等方面发挥着重要作用,RGB-NIR图像融合是一种常见且有效的处理方式.在实际图像处理过程中,图像的不同对象区域因特性不同需要进行差异化处理,但是现有图像融合算法在植被和天空图像区域存在明显不足.对此,提出RGB-NIR联合图像的植被和天空区域概率模板生成算法.方法 以植被为感兴趣区域,基于RGB图像各通道比值和扩展归一化植被指数(normalized difference vegetation index,NDVI)两种特征,提出RGB-NIR联合图像的植被区域概率模板生成算法.以天空为感兴趣区域,基于透射率图引导的局部熵和扩展NDVI两种特征,结合像素高度信息,提出RGB-NIR联合图像的天空区域概率模板生成算法.两种算法生成的植被和天空的概率模板在RGB-NIR图像融合过程中利用概率模板对权重矩阵进行修正,可明显改善融合效果.结果 检测植被的模板生成算法与传统NDVI进行比较,在对比度和鲁棒性方面有更大优势;与语义分割进行比较,在准确度和纹理细节上有更好表现.检测天空的模板生成算法与当前的概率模板天空检测算法相比,准确率更高,边缘过渡更平滑;与当前的二值模板天空检测算法相比,在检测效果相当的情况下能保留更多细节信息,并且对小物体的划分更为准确.以本文检测算法修正后的图像融合结果在保持细节增强效果的同时,视觉感观更为自然,在定量指标上也更占优势.结论 本文提出的概率模板生成算法结果准确、性能鲁棒,能有效提升RGB-NIR图像融合的效果,特别是在涉及权重的图像融合中能更好地结合与应用.

    植被检测天空检测概率模板图像融合视觉增强

    多尺度条形池化与通道注意力的图像语义分割

    马吉权赵淑敏孔凡辉
    3530-3541页
    查看更多>>摘要:目的 针对自然场景下图像语义分割易受物体自身形状多样性、距离和光照等因素影响的问题,本文提出一种新的基于条形池化与通道注意力机制的双分支语义分割网络(strip pooling and channel attention net,SPCANet).方法 SPCANet从空间与内容两方面对图像特征进行抽取.首先,空间感知子网引入1维膨胀卷积与多尺度思想对条形池化技术进行优化改进,进一步在编码阶段增大水平与竖直方向上的感受野;其次,为了提升模型的内容感知能力,将在ImageNet数据集上预训练好的VGG16(Visual Geometry Group 16-layer network)作为内容感知子网,以辅助空间感知子网优化语义分割的嵌入特征,改善空间感知子网造成的图像细节信息缺失问题.此外,使用二阶通道注意力进一步优化网络中间层与高层的特征选择,并在一定程度上缓解光照产生的色差对分割结果的影响.结果 使用Cityscapes作为实验数据,将本文方法与其他基于深度神经网络的分割方法进行对比,并从可视化效果和评测指标两方面进行分析.SPCANet在目标分割指标mIoU(mean intersection over union)上提升了1.2%.结论 提出的双分支语义分割网络利用改进的条形池化技术、内容感知辅助网络和通道注意力机制对图像语义分割进行优化,对实验结果的提升起到了积极作用.

    图像分割注意力条形池化膨胀卷积感受野