首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    IHCCD:非规范手写汉字识别数据集

    季佳美邵允学季倓正
    3345-3356页
    查看更多>>摘要:目的 随着深度学习技术的快速发展,规范手写汉字识别(handwritten Chinese character recognition,HCCR)任务已经取得突破性进展,但对非规范书写汉字识别的研究仍处于萌芽阶段.受到书法流派和书写习惯等原因影响,手写汉字常常与打印字体差异显著,导致同类别文字的整体结构差异非常大,基于现有数据集训练得到的识别模型,无法准确识别非规范书写的汉字.方法 为了推动非规范书写汉字识别的研究工作,本文制做了首套非规范书写的汉字数据集(irregular handwritten Chinese character dataset,IHCCD),目前共包含3 755个类别,每个类别有30幅样本.还给出了经典深度学习模型ResNet,CBAM-ResNet,Vision Transformer,Swin Transformer在本文数据集上的基准性能.结果 实验结果表明,虽然以上经典网络模型在规范书写的CASIA-HWDB1.1数据集上能够取得良好性能,其中Swin Transformer在CASIA-HWDB1.1数据集上最高精度达到了 95.31%,但是利用CASIA-HWDB1.1训练集训练得到的网络模型,在IHCCD测试集上的识别结果较差,最高精度也只能达到30.20%.在加入IHCCD训练集后,所有的经典模型在IHCCD测试集上的识别性能均得到了较大提升,最高精度能达到89.89%,这表明IHCCD数据集对非规范书写汉字识别具有研究意义.结论 现有OCR识别模型还存在局限性,本文收集的IHCCD数据集能够有效增强识别模型泛化性能.该数据集下载链接https://pan.baidu.com/s/1PtcfWj3yUSz68o2ZzvPJOQ?pwd=66Y7.

    非规范书写手写汉字识别(HCCR)IHCCD数据集深度学习经典分类模型

    基于透射率修正和分层优化的夜间图像去雾

    罗杰林森
    3357-3370页
    查看更多>>摘要:目的 大气中颗粒对光线的吸收和散射以及人造光源的影响,导致夜间获取的图像存在雾化、照度低和颜色偏差等问题,但传统的夜间去雾方法常局限于处理特定情况,未能综合考虑夜间图像中的各种影响因素.针对上述问题,提出一种基于透射率补偿与归一化和结构纹理优化的两阶段夜间图像去雾方法.方法 首先,提出融合透射率补偿与归一化的修正方法获取透射率图,同时使用二次高斯滤波方法获取大气光图,并根据夜间成像模型实现图像去雾;其次,使用改进的基于Retinex的结构纹理分层模型(structure and texture aware retinex model based on the YUV color space,STAR-YUV)将图像分为结构层和纹理层,对结构层进行照明补偿和颜色校正,对纹理层采用拉普拉斯高斯滤波器以丰富细节信息;最后,采用两阶段融合方法将图像分步融合得到增强后的图像.结果 理论分析和实验结果表明,经本文算法处理过的测试集图像,其峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity index measure,SSIM)、平均梯度(average gradient,AG)、信息熵(information entropy,IE)和自然图像质量评估器(natural image quality evaluator,NIQE)指标平均值分别达到了 17.024 dB、0.765、7.604、7.528 和2.693,在对比的传统和深度学习算法中均位于前列,表明本文算法能够很好地实现夜间图像去雾,对细节和图像自然度的恢复也取得了较好结果.结论 所提出的方法将透射率修正与结构纹理优化有效结合在一起,对含有整体色偏问题的夜间图像有更好的效果,能够提高场景亮度、校正色偏并丰富细节信息,具有普适性.

    夜间图像去雾透射率修正方法结构纹理优化两阶段图像融合

    注意力集合表示的多尺度度量小样本图像分类

    王雪松吕理想程玉虎王浩宇...
    3371-3382页
    查看更多>>摘要:目的 在图像分类中,通常先用深度网络提取特征,再基于这些特征进行分类,小样本图像分类也遵循此原则.但在特征提取为向量的过程中,信息丢失是一个常见问题,这可能导致模型遗漏关键的类别信息.为构建更丰富、更全面的特征表示,提出了基于基类的丰富表示特征提取器(rich representation feature extractor,RireFeat)o方法RireFeat通过在特征提取网络中构建不同层级间的基于注意力机制的信息流通渠道,使得被忽略的类别强相关信息重新出现在新提取的特征表示中,从而根据重要性有效地利用图像信息以构建全面的特征表示.同时,为了增强模型的判别能力,从多个尺度对特征进行度量,构建基于对比学习和深度布朗距离协方差的损失函数,拉近类别强相关特征向量之间的距离,同时使不同类别特征向量距离更远.结果 为了验证所提特征提取器的有效性,在标准的小样本数据集 MiniImagenet、TierdeImageNet 和 CUB(caltech-ucsd birds-200-2011)上进行了 1-shot 和 5-shot 的分类训练.实验结果显示,在MiniImageNet数据集上RireFeat在基于卷积的骨干网络中于1-shot和5-shot情况下分别比集合特征提取器(set-feature extractor,SetFeat)取得精度高出 0.64%和 1.10%.基于 ResNet 12(residual net-work)的结构中于1-shot和5-shot情况下分别比SetFeat精度高出1.51%和1.46%.CUB数据集在基于卷积的骨干网络中分别于1-shot和5-shot情况下提供比SetFeat高0.03%和0.61%的增益.在基于ResNet 12的结构中于1-shot和5-shot情况下比SetFeat精度提高了 0.66%和0.75%.在TieredImageNet评估中,基于卷积的骨干网络结构中于1-shot和5-shot情况下比SetFeat精度提高了 0.21%和0.38%.结论 所提出的RireFeat特征提取器能够有效地提高模型的分类性能,并且具有很好的泛化能力.

    小样本图像分类注意力机制多尺度度量特征表示对比学习深度布朗距离协方差

    字符敏感编辑距离的零样本汉字识别

    陈宇王大寒池雪可江楠峰...
    3383-3400页
    查看更多>>摘要:目的 零样本汉字识别(zero-shot Chinese character recognition,ZSCCR)因其能在零或少训练样本下识别未见汉字而受到广泛关注.现有的零样本汉字识别方法大多采用基干部首序列匹配框架,即首先预测部首序列,然后根据表意描述序列(ideographic description sequence,IDS)字典进行最小编辑距离(minimum edit distance,MED)匹配.然而,现有的MED算法默认不同部首的替换代价、插入代价和删除代价相同,导致在匹配时候选字符类别存在距离代价模糊和冗余的问题.为此,提出了一种字符敏感编辑距离(character-aware edit distance,CAED)以正确匹配目标字符类别.方法 通过设计多种部首信息提取方法,获得了更为精细化的部首描述,从而得到更精确的部首替换代价,提高了 MED的鲁棒性和有效性;此外,提出部首计数模块预测样本的部首数量,从而形成代价门控以约束和调整插入和删除代价,克服了 IDS序列长度预测不准确产生的影响.结果 在手写汉字、场景汉字和古籍汉字等数据集上进行实验验证,与以往的方法相比,本文提出的CAED在识别未见汉字类别的准确率上分别提高了4.64%、1.1%和5.08%,同时对已见汉字类别保持相当的性能,实验结果充分表明了本方法的有效性.结论 本文所提出的字符敏感编辑距离,使得替换、插入和删除3种编辑代价根据字符进行自适应调整,有效提升了对未见汉字的识别性能.

    零样本汉字识别(ZSCCR)表意描述序列(IDS)编辑距离字符敏感部首信息代价门控

    面向目标类别分类的无数据知识蒸馏方法

    谢奕涛苏鹭梅杨帆陈宇涵...
    3401-3416页
    查看更多>>摘要:目的 目前,研究者们大多采用无数据蒸馏方法解决训练数据缺乏的问题.然而,现有的无数据蒸馏方法在实际应用场景中面临着模型收敛困难和学生模型紧凑性不足的问题,为了满足针对部分类别的模型训练需求,灵活选择教师网络目标类别知识,本文提出了一种新的无数据知识蒸馏方法:面向目标类别的掩码蒸馏(masked distil-lation for target classes,MDTC).方法 MDTC在生成器学习原始数据的批归一化参数分布的基础上,通过掩码阻断生成网络在梯度更新过程中非目标类别的梯度回传,训练一个仅生成目标类别样本的生成器,从而实现对教师模型中特定知识的准确提取;此外,MDTC将教师模型引入到生成网络中间层的特征学习过程,优化生成器的初始参数设置和参数更新策略,加速模型收敛.结果 在4个标准图像分类数据集上,设计13个子分类任务,评估MDTC在不同难度的子分类任务上的性能表现.实验结果表明,MDTC能准确高效地提取教师模型中的特定知识,不仅总体准确率优于主流的无数据蒸馏模型,而且训练耗时少.其中,40%以上学生模型的准确率甚至超过教师模型,最高提升了 3.6%.结论 本文方法的总体性能超越了现有无数据蒸馏模型,尤其是在简单样本分类任务的知识学习效率非常高,在提取知识类别占比较低的情况下,模型性能最优.

    深度学习图像分类模型压缩无数据知识蒸馏生成器

    点云多尺度编码的单阶段3D目标检测网络

    韩俊博胡海洋李忠金潘开来...
    3417-3432页
    查看更多>>摘要:目的 自动引导运输小车(automatic guided vehicles,AGV)在工厂中搬运货物时会沿着规定路线运行,但是在靠近障碍物时只会简单地自动停止,无法感知障碍物的具体位置和大小,为了让AGV小车在复杂的工业场景中检测出各种障碍物,提出了一个点云多尺度编码的单阶段3D目标检测网络(multi-scale encoding for single-stage 3D object detector from point clouds,MSE-SSD).方法 首先,该网络通过可学习的前景点下采样模块来对原始点云进行下采样,以精确地分割出前景点.其次,将这些前景点送入多抽象尺度特征提取模块进行处理,该模块能够分离出不同抽象尺度的特征图并对它们进行自适应地融合,以减少特征信息的丢失.然后,从特征图中预测出中心点,通过多距离尺度特征聚合模块将中心点周围的前景点按不同距离尺度进行聚合编码,得到语义特征向量.最后,利用中心点和语义特征向量一起预测包围框.结果 MSE-SSD在自定义数据集中进行实验,多个目标的平均精度(average precision,AP)达到了最优,其中,在困难级别下空AGV分类、简单级别下载货AGV分类比排名第2的IA-SSD(learning highly efficient point-based detectors for 3D LiDAR point clouds)高出 1.27%、0.08%,在简单级别下工人分类比排名第 2 的 SA-SSD(structure aware single-stage 3D object detection from point cloud)高出 0.71%.网络运行在单个RTX 2080Ti GPU上检测速度高达77帧/s,该速度在所有主流网络中排名第2.将训练好的网络部署在AGV小车搭载的开发板TXR上,检测速度达到了 8.6帧/s.结论 MSE-SSD在AGV小车避障检测方面具有较高的精确性和实时性.

    3D目标检测单阶段检测网络点云下采样点云特征提取点云特征聚合

    端到端对称感知对比学习脑室分割算法

    喻莉华毅能
    3433-3446页
    查看更多>>摘要:目的 脑室是人脑重要结构,在临床实践中,其大小、形状变化与多种慢性和急性神经系统疾病息息相关,对脑室的精确分割能够为脑部相关疾病的诊断提供有价值的辅助信息.随着深度学习在医学图像处理领域的迅速发展,医学图像分割任务取得了重大进展.然而,脑室内出血患者的脑室分割问题仍然有待探索.方法 本文聚焦于脑室内出血患者的脑室分割问题,针对其面临的目标遮挡、边界不清晰等问题,提出针对性的脑室分割算法——基于端到端对比学习对称感知的脑室分割网络.该模型首先基于空间转换网络实现自适应图像校正,获取任意角度下输入图像的脑室对称图像.然后通过对比学习算法并结合加权对称损失函数施加对图像的对称性约束.通过上述方法可实现脑室分割网络的端到端训练,上游网络与下游分割任务协同合作.结果 基于不同分割网络模型的实验结果表明,该方案在脑室内出血患者的脑室分割任务上可取得性能提升,该方案按病例和切片评估的Dice系数指标平均增益分别达到1.09%和1.28%.结合本文算法,最优模型按病例评估的DSC(Dice similarity coefficient)系数和召回率分别达到85.17%和84.03%.结论 本文所提出算法对CT(computed tomography)和MR(magnetic resonance)图像的脑室分割均取得了有效提升,对脑室内出血患者相关医学图像分割提升尤为显著,并且本文方法可移植性强,可适用于多种分割网络.

    脑室分割深度学习脑室内出血(IVH)对称感知端到端网络

    感受野扩增的轻量级病理图像聚焦质量评估网络

    丁维龙朱伟廖婉茵刘津龙...
    3447-3461页
    查看更多>>摘要:目的 病理切片扫描仪成像的数字病理图像的聚焦质量不佳,会严重影响肿瘤诊断的准确性.因此,开展对数字病理图像的聚焦质量评估的自动化算法至关重要.现有的聚焦质量评估主要采用深度学习方法,但常规的卷积神经网络(convolutional neural network,CNN)存在全局信息提取能力差和计算量过大问题.为此,提出一种感受野扩增的轻量级病理图像聚焦质量评估网络.方法 该网络引入大卷积核来扩增网络的感受野,以捕获更多的全局信息.再利用新的双流大核注意力机制,增强对空间和通道上全局信息的提取能力.最后,将该网络优化为参数量递减的大型、中型和小型3个版本,以实现网络的轻量化.结果 本文提出的大型网络比同类先进方法取得更优的性能.与本文的大型网络相比,优化后的小型网络牺牲了较小的性能,却取得参数量、计算量和CPU推理时间的显著下降.与同类轻量级网络SDCNN(self-defined convolutional neural network)相比,本文的小型网络在SRCC(Spearman's rank correlation coefficient)、PLCC(Pearson linear correlation coefficient)和 KRCC(Kendall rank correlation coefficient)等度量指标上分别提升了 0.016 1、0.016 6和0.029 9,而参数量、计算量和CPU推理时间分别减少了39.06%、95.11%和51.91%.结论 本文提出的方法可有效地提取数字病理图像的全局聚焦信息,且计算资源消耗更低,具有现实可行性.

    数字病理图像聚焦质量评估感受野扩增注意力机制轻量级

    融合交叉注意力与双编码器的医学图像分割

    李赫刘建军肖亮
    3462-3475页
    查看更多>>摘要:目的 在现有的医学图像分割算法中,卷积神经网络(convolutional neural network,CNN)和Transformer相结合的方法占据了主流.然而,这些方法通常不能有效地结合CNN和Transformer所提取到的局部和全局信息.针对这一问题,提出了一种基于全局—局部交叉注意力的双编码器分割网络(dual-encoder global-local cross attention network,DGLCANet).方法 DGLCANet是基于UNet的编码器—解码器结构实现的.首先,采用CNN和交叉形状窗口 Transformer(CSWin Transformer)为主的双编码器结构来提取图像丰富的全局上下文特征以及局部纹理特征.其次,在CNN分支中,引入一个全局—局部交叉注意力Transformer模块来使双分支所提取到的信息关联起来.最后,为了减小编码器与解码器之间的特征差距,本文在原始跳跃连接中插入了一个特征自适应模块.结果 将DGLCANet与9种先进的分割算法在4个公开数据集上进行实验对比,其分割效果在交并比(intersection over union,IoU)、Dice系数(Dice coefficient)、准确度(accuracy,ACC)和召回率(recall)指标上均有提高,在4个数据集上的IoU分别达到 85.1%、83.34%、68.01%和85.63%,相较于经典算法UNet分别提升了 8.07%、6.01%、7.83%和3.87%.结论 DGLCANet综合了基于CNN方法和基于Transformer方法的优点,充分利用了图像中的全局和局部信息,具有更优异的分割性能.

    医学图像分割卷积神经网络(CNN)双编码器交叉注意力机制Transformer

    融合遗传算法和图神经网络的抑郁症智能诊断

    龙丹章梦达应仁辉陈丰农...
    3476-3486页
    查看更多>>摘要:目的 构建基于脑网络的抑郁症智能诊断模型是一项具有挑战性的任务.近年来,图神经网络(graph neu-ral network,GNN)越来越多地应用于图的分类任务中,大部分GNN研究都只是对单一空间(样本空间或者特征空间)进行建模,导致模型分类性能不够好,本文提出一种基于遗传算法(genetic algorithm,GA)和GNN的多空间融合算法来对抑郁症患者进行智能诊断.方法 模型采用留一站点交叉验证来确保模型的泛化性.脑网络的构建是基于Pearson相关的功能连接方法.整个算法以遗传算法作为主要框架,其中适应度函数是基于图卷积网络(graph convolutional network,GCN)分类算法,通过搜索个体间相似性阈值来找到具有最高分辨力的GCN.GCN由两个网络串联组成,一个网络获取受试者特征空间信息,另一个提取受试者之间样本空间的信息,最后通过两级GCN的联合学习实现分类.结果 所有数据来源于The REST-meta-MDD项目,一共有来自10个站点1 160个受试者功能磁共振数据纳入本实验(男434、女726).实验结果显示,本文提出的分类器准确性、精度和受试者特征曲线(receiver operating characteristic,ROC)下面积分别为64.72%、69.69%和64.58%,优于其他主流算法.结论 与其他算法相比,本文提出的算法融合了传统模型和深度学习模型的优点,获得了最佳的分类性能,未来很有可能为临床抑郁症诊断提供重要依据.

    抑郁症图卷积网络(GCN)智能诊断融合算法个体相似性