首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    深度学习与生物医学图像分析2020年综述

    陈弘扬高敬阳赵地汪红志...
    475-486页
    查看更多>>摘要:医学大数据主要包括电子健康档案数据(electronic health record,EHR)、医学影像数据和基因信息数据等,其中医学影像数据占现阶段医学数据的绝大部分.如何将医学大数据应用于临床实践?这是计算机科学研究人员非常关注的问题,医学人工智能提供了一个很好的答案.通过结合医学图像大数据分析方向截至2020年的最新研究进展,以及医学图像大数据分析领域最近的工作,梳理了当前在医学图像领域以核磁共振影像、超声影像、病理和电信号为代表的4个子领域以及部分其他方向使用深度学习进行图像分析的方法理论和主要流程,对不同算法进行结果评价.本文分析了现有算法的优缺点以及医学影像领域的重难点,介绍了智能成像和深度学习在大数据分析以及疾病早期诊断领域的应用,同时展望了本领域未来的发展热点.深度学习在医学影像领域发展迅速,发展前景广阔,对疾病的早期诊断有重要作用,能有效提高医生工作效率并减轻负担,具有重要的理论研究和实际应用价值.

    深度学习目标分割磁共振图像(MRI)病理超声综述

    深度学习图像数据增广方法研究综述

    马岽奡唐娉赵理君张正...
    487-502页
    查看更多>>摘要:数据作为深度学习的驱动力,对于模型的训练至关重要.充足的训练数据不仅可以缓解模型在训练时的过拟合问题,而且可以进一步扩大参数搜索空间,帮助模型进一步朝着全局最优解优化.然而,在许多领域或任务中,获取到充足训练样本的难度和代价非常高.因此,数据增广成为一种常用的增加训练样本的手段.本文对目前深度学习中的图像数据增广方法进行研究综述,梳理了目前深度学习领域为缓解模型过拟合问题而提出的各类数据增广方法,按照方法本质原理的不同,将其分为单数据变形、多数据混合、学习数据分布和学习增广策略等4类方法,并以图像数据为主要研究对象,对各类算法进一步按照核心思想进行细分,并对方法的原理、适用场景和优缺点进行比较和分析,帮助研究者根据数据的特点选用合适的数据增广方法,为后续国内外研究者应用和发展研究数据增广方法提供基础.针对图像的数据增广方法,单数据变形方法主要可以分为几何变换、色域变换、清晰度变换、噪声注入和局部擦除等5种;多数据混合可按照图像维度的混合和特征空间下的混合进行划分;学习数据分布的方法主要基于生成对抗网络和图像风格迁移的应用进行划分;学习增广策略的典型方法则可以按照基于元学习和基于强化学习进行分类.目前,数据增广已然成为推进深度学习在各领域应用的一项重要技术,可以很有效地缓解训练数据不足带来的深度学习模型过拟合的问题,进一步提高模型的精度.在实际应用中可根据数据和任务的特点选择和组合最合适的方法,形成一套有效的数据增广方案,进而为深度学习方法的应用提供更强的动力.在未来,根据数据和任务基于强化学习探索最优的组合策略,基于元学习自适应地学习最优数据变形和混合方式,基于生成对抗网络进一步拟合真实数据分布以采样高质量的未知数据,基于风格迁移探索多模态数据互相转换的应用,这些研究方向十分值得探索并且具有广阔的发展前景.

    深度学习过拟合数据增广图像变换生成对抗网络元学习强化学习

    自适应B样条小波函数模糊距离测量方法

    梁锐魏阳杰
    503-515页
    查看更多>>摘要:目的 双目测距和单目测距是目前常用的两种基于光学传感器的测距方法,双目测距需要相机标定和图像配准,计算量大且测量范围有限,而单目测距减少了对设备和场地的要求,加快了计算时间.为了解决现有的单目测距方法存在精度低、鲁棒性差等缺点,本文提出了一种基于单模糊图像和B样条小波变换的自适应距离测量方法.方法 引入拉普拉斯算子量化评估图像模糊程度,并根据模糊程度值自动定位阶跃边缘;利用B样条小波变换代替高斯滤波器主动模糊化目标图像,并通过分析图像模糊程度、模糊次数以及测量误差之间的关系模型,自适应地计算不同景物图像的最优模糊次数;根据最优模糊图像中阶跃边缘两侧模糊程度变化求解目标边缘和相机之间的相对距离.结果 本文方法与基于高斯模糊图像的距离测量方法相比精度更高,平均相对误差降低5%.使用不同模糊次数对同样的图像进行距离测量时,本文算法能够自适应选取最优模糊次数,保证所测量距离的精度更高.结论 本文提出的单视觉测距方法,综合了传统的方法和B样条小波的优点,测距结果更准确,自适应性和鲁棒性更高.

    单目视觉距离测量B样条小波拉普拉斯算子模糊程度评估

    增强二阶网络调制的目标跟踪

    王献海宋慧慧张开华刘青山...
    516-526页
    查看更多>>摘要:目的 表观模型对视觉目标跟踪的性能起着决定性的作用.基于网络调制的跟踪算法通过构建高效的子网络学习参考帧目标的表观信息,以用于测试帧目标的鲁棒匹配,在多个目标跟踪数据集上表现优异.但是,这类跟踪算法忽视了高阶信息对鲁棒建模物体表观的重要作用,致使在物体表观发生大尺度变化时易产生跟踪漂移.为此本文提出全局上下文信息增强的二阶池化调制子网络,以学习高阶特征提升跟踪器的性能.方法 首先,利用卷积神经网络(convolutional neural networks,CNN)提取参考帧和测试帧的特征;然后,对提取的特征采用不同方向的长短时记忆网络(long shot-term memory networks,LSTM)捕获每个像素的全局上下文信息,再经过二阶池化网络提取高阶信息;最后,通过调制机制引导测试帧学习最优交并比预测.同时,为提升跟踪器的稳定性,在线跟踪通过指数加权平均自适应更新物体表观特征.结果 实验结果表明,在OTB100(object tracking benchmark)数据集上,本文方法的成功率为67.9%,超越跟踪器ATOM(accurate tracking by overlap maximization)1.5%;在VOT(visual object tracking) 2018数据集上平均期望重叠率(expected average overlap,EAO)为0.44,超越ATOM 4%.结论 本文通过构建全局上下文信息增强的二阶池化调制子网络来学习高效的表观模型,使跟踪器达到目前领先的性能.

    视觉目标跟踪(VOT)卷积神经网络(CNN)网络调制上下文信息注意力机制

    背景与方向感知的相关滤波跟踪

    姜文涛涂潮刘万军
    527-541页
    查看更多>>摘要:目的 针对相关滤波跟踪算法,目标与周围背景进行等值权重训练滤波器导致目标与背景信息相似时,易出现目标漂移问题,本文提出一种基于背景与方向感知的相关滤波跟踪算法.方法 将目标周围的背景信息学习到滤波器中,利用卡尔曼滤波预测目标的运动状态和运动方向,提取目标运动方向上的背景信息,将目标运动方向上与非运动方向上的背景信息进行滤波器训练,保证分配给目标运动方向上背景信息的训练权重高于非运动方向上的权重,增加滤波器对目标和背景信息的分辨能力,采用线性插值法得到最大响应值,用于确定目标位置;构造辅助因子g,利用增广拉格朗日乘子法(augmented Lagrange method,ALM)将约束项放到优化函数里,采用交替求解算法(alternating direction method of multipliers,ADMM)将求解目标问题转化为求滤波器和辅助因子的最优解,降低计算复杂度;采用多分辨率搜索方法来估计目标变换的尺度.结果 在数据集OTB50(object tracking benchmark)和OTB100上的平均精确率和平均成功率分别为0.804和0.748,相比BACF(background-aware correlation filters)算法分别提高了7%和16%;在数据集LaSOT上本文算法精确率为0.329,相比BACF(0.239)的精确率得分,更能体现本文算法的鲁棒性.结论 与其他主流算法相比,本文算法在运动模糊、背景杂乱和形变等复杂条件下跟踪效果更加鲁棒.

    计算机视觉目标跟踪相关滤波背景感知卡尔曼滤波交替求解算法(ADMM)

    SSD与时空特征融合的视频目标检测

    尉婉青禹晶柏鳗晏肖创柏...
    542-555页
    查看更多>>摘要:目的 视频目标检测旨在序列图像中定位运动目标,并为各个目标分配指定的类别标签.视频目标检测存在目标模糊和多目标遮挡等问题,现有的大部分视频目标检测方法是在静态图像目标检测的基础上,通过考虑时空一致性来提高运动目标检测的准确率,但由于运动目标存在遮挡、模糊等现象,目前视频目标检测的鲁棒性不高.为此,本文提出了一种单阶段多框检测(single shot multibox detector,SSD)与时空特征融合的视频目标检测模型.方法 在单阶段目标检测的SSD模型框架下,利用光流网络估计当前帧与近邻帧之间的光流场,结合多个近邻帧的特征对当前帧的特征进行运动补偿,并利用特征金字塔网络提取多尺度特征用于检测不同尺寸的目标,最后通过高低层特征融合增强低层特征的语义信息.结果 实验结果表明,本文模型在ImageNet VID(Imagelvet for video object detetion)数据集上的mAP(mean average precision)为72.0%,相对于TCN(temporal convolutional networks)模型、TPN+LSTM(tubelet proposal network and long short term memory network)模型和SSD+孪生网络模型,分别提高了24.5%、3.6%和2.5%,在不同结构网络模型上的分离实验进一步验证了本文模型的有效性.结论 本文模型利用视频特有的时间相关性和空间相关性,通过时空特征融合提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题.

    目标检测单阶段多框检测特征融合光流特征金字塔网络

    自然场景下变形车牌检测模型DLPD-Net

    余烨付源梓陈维笑刘海涛...
    556-567页
    查看更多>>摘要:目的 随着智能交通领域车牌应用需求的升级,以及车牌图像复杂性的提高,自然场景下的车牌识别面临挑战.为应对自然场景下车牌的不规则变形问题,充分考虑车牌的形状特征,提出了一种自然场景下的变形车牌检测模型DLPD-Net(distorted license plate detection network).方法 该模型首次将免锚框目标检测方法应用于车牌检测任务中,不再使用锚框获取车牌候选区域,而是基于车牌热力值图与偏移值图来预测车牌中心;然后基于仿射变换寻找车牌角点位置,将变形车牌校正为接近于正面视角的平面矩形,从而实现在各种自然场景下变形车牌的检测.结果 一方面,基于数据集CD-HARD评估DLPD-Net检测算法的性能;另一方面,基于数据集AOLP(the application-oriented license plate database)和CD-HARD评估基于DLPD-Net的车牌识别系统的有效性.实验结果表明,DLPD-Net具有更好的变形车牌检测性能,能够提升车牌识别系统的识别准确率,在数据集CD-HARD上识别准确率为79.4%,高出其他方法4.4%~12.1%,平均处理时间为237 ms.在数据集AOLP上取得了96.6%的识别准确率,未使用扩充数据集的情况下识别准确率达到了94.9%,高出其他方法1.6%~25.2%,平均处理时间为185 ms.结论 本文提出的自然场景下的变形车牌检测模型DLPD-Net,能够实现在多种变形条件下的车牌检测,鲁棒性强,对遮挡、污垢和图像模糊等复杂自然环境下的车牌检测具有良好检测效果,同时,基于该检测模型的车牌识别系统在非受限的自然场景下具有更高的实用性.

    自动车牌识别(ALPR)深度学习车牌检测车牌校正字符识别

    两阶段特征提取策略的图像去雾

    袁非牛李志强史劲亭夏雪...
    568-580页
    查看更多>>摘要:目的 传统以先验知识为基础的去雾算法,如最大化饱和度、暗通道等,在某些特定场景下效果非常不稳定,会出现色彩扭曲和光晕等现象.由于标注好的训练数据严重不足、特征的冗余性等原因,传统基于学习的去雾算法容易导致模型过拟合.为克服这些问题,本文提出一种基于两阶段特征提取的场景透射率回归去雾方法.方法 在第1阶段,提取图像在颜色空间上的饱和度、最小通道、最大通道以及灰度图的盖博响应等43维特征作为初始雾的特征,并在提取的特征图像局部窗口内,进一步提取最小值、最大值、均值、方差、偏度、峰度、高斯均值等7维特征.在第2阶段,将提取的43×7=301个维度特征组成表征雾的二阶段特征向量.最后采用支持向量机进行训练,得到雾的特征向量和场景透射率的回归模型.结果 实验结果表明,本文算法取得了非常好的去雾效果.平均梯度值为4.475,高于所有对比算法;峰值信噪比为18.150 dB,仅次于多尺度卷积神经网络去雾算法;结构相似性为0.867,处于较高水平;去雾后的亮度和对比度,也均排于前列.本文算法的去雾测试性能接近甚至超过了已有的基于深度学习的去雾算法,表明本文提出的两阶段特征能够很好地对雾进行表征,实现了小样本学习的高效去雾.结论 本文通过两阶段的特征提取策略,极大提升了算法的鲁棒性,仅需要极少量样本就能训练得到性能很好的去雾模型,具有很好的泛化性能.

    图像去雾图像增强特征提取支持向量机(SVM)机器学习

    由粗到精的多尺度散焦模糊检测

    衡红军叶何斌周末黄睿...
    581-593页
    查看更多>>摘要:目的 散焦模糊检测致力于区分图像中的清晰与模糊像素,广泛应用于诸多领域,是计算机视觉中的重要研究方向.待检测图像含复杂场景时,现有的散焦模糊检测方法存在精度不够高、检测结果边界不完整等问题.本文提出一种由粗到精的多尺度散焦模糊检测网络,通过融合不同尺度下图像的多层卷积特征提高散焦模糊的检测精度.方法 将图像缩放至不同尺度,使用卷积神经网络从每个尺度下的图像中提取多层卷积特征,并使用卷积层融合不同尺度图像对应层的特征;使用卷积长短时记忆(convolutional long-short term memory,Conv-LSTM)层自顶向下地整合不同尺度的模糊特征,同时生成对应尺度的模糊检测图,以这种方式将深层的语义信息逐步传递至浅层网络;在此过程中,将深浅层特征联合,利用浅层特征细化深一层的模糊检测结果;使用卷积层将多尺度检测结果融合得到最终结果.本文在网络训练过程中使用了多层监督策略确保每个Conv-LSTM层都能达到最优.结果 在DUT(Dalian University of Technology)和CUHK(The Chinese University of Hong Kong)两个公共的模糊检测数据集上进行训练和测试,对比了包括当前最好的模糊检测算法BTBCRL(bottom-top-bottom network with cascaded defocus blur detection map residual learning),DeFusionNet(defocus blur detection network via recurrently fusing and refining multi-scale deep features)和DHDE(multi-scale deep and hand-crafted features for defocus estimation)等10种算法.实验结果表明:在DUT数据集上,本文模型相比于DeFusionNet模型,MAE(mean absolute error)值降低了38.8%,F0 3值提高了5.4%;在CUHK数据集上,相比于LBP(local binary pattern)算法,MAE值降低了36.7%,F0 3值提高了9.7%.通过实验对比,充分验证了本文提出的散焦模糊检测模型的有效性.结论 本文提出的由粗到精的多尺度散焦模糊检测方法,通过融合不同尺度图像的特征,以及使用卷积长短时记忆层自顶向下地整合深层的语义信息和浅层的细节信息,使得模型在不同的图像场景中能得到更加准确的散焦模糊检测结果.

    散焦模糊检测(DBD)多尺度特征卷积长短时记忆(Conv-LSTM)由粗到精多层监督

    Re-GAN:残差生成式对抗网络算法

    史彩娟涂冬景刘靖祎
    594-604页
    查看更多>>摘要:目的 生成式对抗网络(generative adversarial network,GAN)是一种无监督生成模型,通过生成模型和判别模型的博弈学习生成图像.GAN的生成模型是逐级直接生成图像,下级网络无法得知上级网络学习的特征,以至于生成的图像多样性不够丰富.另外,随着网络层数的增加,参数变多,反向传播变得困难,出现训练不稳定和梯度消失等问题.针对上述问题,基于残差网络(residual network,ResNet)和组标准化(group normalization,GN),提出了一种残差生成式对抗网络(residual generative adversarial networks,Re-GAN).方法 Re-GAN在生成模型中构建深度残差网络模块,通过跳连接的方式融合上级网络学习的特征,增强生成图像的多样性和质量,改善反向传播过程,增强生成式对抗网络的训练稳定性,缓解梯度消失.随后采用组标准化(GN)来适应不同批次的学习,使训练过程更加稳定.结果 在Cifar10、CelebA和LSUN数据集上对算法的性能进行测试.Re-GAN的IS(inception score)均值在批次为64时,比DCGAN(deep eonvolutional GAN)和WGAN(Wasserstein-GAN)分别提高了5%和30%,在批次为4时,比DCGAN和WGAN分别提高了0.2%和13%,表明无论批次大小,Re-GAN生成图像具有很好的多样性.Re-GAN的FID(Fréchet inception distance)在批次为64时比DCGAN和WGAN分别降低了18%和11%,在批次为4时比DCGAN和WGAN分别降低了4%和10%,表明Re-GAN生成图像的质量更好.同时,Re-GAN缓解了训练过程中出现的训练不稳定和梯度消失等问题.结论 实验结果表明,在图像生成方面,Re-GAN的生成图像质量高、多样性强;在网络训练方面,Re-GAN在不同批次下的训练具有更好的兼容性,使训练过程更加稳定,梯度消失得到缓解.

    图像生成深度学习卷积神经网络生成式对抗网络残差网络组标准化