首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    结合潜在扩散模型和U型网络的HIFU治疗目标区域提取

    翟锦涛王润民李昂田峰...
    1291-1306页
    查看更多>>摘要:目的 由于数据采集限制和隐私保护造成高强度聚焦超声(high intensity focused ultrasound,HIFU)治疗超声监控图像数据量过少,导致现有的强监督分割方法提取治疗目标区域不佳.因此,提出了一种结合潜在扩散模型(latent diffusion)和U型网络的HIFU治疗目标区域提取方法.方法 生成阶段利用潜在扩散模型和自动筛选模块,实现超声监控图像数据的扩充.目标区域提取阶段提出新型U型分割网络(novel U-shaped segmentation network,NUNet),在编码器端结合空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP),扩大网络的感受野;设计双注意力跳跃连接模块(dual attention skip connection,DAttention-SK),降低边缘纹理信息丢失的风险;引入多交叉熵损失提高网络的分割性能.结果 实验结果表明,与其他生成模型相比,本文使用潜在扩散模型生成的超声监控图像在FID(Fr6chet inception distance)和 LPIPS(learned perceptual image patch similarity)上获得更优的指标(分别为 0.172 和0.072);相较于先进的PDF-UNet(U-shaped pyramid-dilated network),在 HIFU临床治疗子宫肌瘤超声监控数据集中,本文分割算法的 MIoU(mean intersection over union)和 DSC(Dice similarity coefficient)分别提高了 2.67%和 1.39%.为进一步探讨所提算法的泛化性,在乳腺超声公共数据集(breast ultrasound images dataset,BUSI)上进行了验证.相较于M2SNet(multi-scale in multi-scale subtraction network),本文算法 MIoU 和 DSC分别提升了 2.11%和 1.36%.结论 本文算法在一定程度上解决了超声监控图像中数据量过少的问题,实现对监控超声图像中目标区域的精确提取.代码开源地址为 https://github.com/425877/based-on-latent-diffusion-model-for-HIFU-treatment-target-region-extraction.

    高强度聚焦超声(HIFU)图像分割图像生成损失函数潜在扩散模型

    中国图像工程:2023

    章毓晋
    1307-1320页
    查看更多>>摘要:本文是关于中国图像工程的年度文献综述系列之二十九.为了使国内广大从事图像工程研究和图像技术应用的科技人员能够较全面地了解国内图像工程研究和发展的现状,能够有针对性地查询有关文献,且向期刊编者和作者提供有用的参考,本文对2023年度发表的图像工程相关文献进行了统计和分析.具体从国内15种有关图像工程重要中文期刊在2023年发行的所有154期上发表的学术研究和技术应用文献(共2 989篇)中,选取出所有属于图像工程领域的文献(共865篇),并根据各文献的主要内容将其分别归入图像处理、图像分析、图像理解、技术应用和综述评论5个大类,然后进一步分入23个专业小类(与前18年相同),并在此基础上分别进行了各个期刊及各类文献的统计和分析.根据对2023年统计数据的分析可以看出:从研究角度看,图像分析方向当前得到了最多的关注,其中图像分割和基元检测、目标检测和识别以及人体生物特征提取和验证等都是研究的焦点;从应用角度看,遥感、雷达、声呐、测绘等领域最为活跃,而且新的图像技术开发和应用领域拓展很快.总的来说,中国图像工程在2023年的研究深度和广度还在继续提高和扩大,仍保持了快速发展的势头.综合29年的统计数据还为读者提供了更全面和更可信的各个研究方向发展趋势的信息.

    图像工程图像处理图像分析图像理解技术应用文献综述文献统计文献分类文献计量学

    基于视觉的液晶屏/OLED屏缺陷检测方法综述

    林思媛吴一全
    1321-1345页
    查看更多>>摘要:液晶屏(liquid crystal display,LCD)和有机发光半导体(organic light-emitting diode,OLED)屏的制造工艺复杂,其生产过程的每个阶段会不可避免地引入各种缺陷,影响产品的视觉效果及用户体验,甚至出现严重的质量问题.实现快速且精确的缺陷检测是提高产品质量和生产效率的重要手段.本文综述了近20年来基于机器视觉的液晶屏/OLED屏缺陷检测方法.首先给出了液晶屏/OLED屏表面缺陷的定义、分类及其产生的原因和缺陷的量化指标;指出了基于视觉的液晶屏/OLED屏表面缺陷检测的难点.然后重点阐述了基于图像处理的缺陷检测方法,包括介绍图像去噪和图像亮度矫正的图像预处理过程;考虑到所采集的液晶屏/OLED屏图像存在纹理背景干扰,对重复性纹理背景消除和背景抑制法进行分析;针对Mura缺陷边缘模糊等特点,总结改进的缺陷分割方法;阐述提取图像特征并使用支持向量机、支持向量数据描述和随机森林算法等基于特征识别的缺陷检测方法.接着综述了基于深度学习的缺陷检测方法,根据产线不同时期的样本数量分别总结了无监督学习、缺陷样本生成、迁移学习和监督学习的方法,其中无监督学习从基于生成对抗网络和自编码器两个方面进行阐述.随后梳理了通用纹理表面缺陷数据集和模型性能的评价指标.最后针对目前液晶屏/OLED屏缺陷检测方法存在的问题,对未来进一步的研究方向进行了展望.

    缺陷检测液晶屏(LCD)OLED屏机器视觉深度学习纹理背景消除无监督学习

    面向RGB-D图像的多层特征提取算法综述

    李洋吴晓群
    1346-1363页
    查看更多>>摘要:RGB-D图像包含丰富的多层特征,如底层的线特征、平面特征,高层的语义特征,面向RGB-D图像的多层特征提取结果可以作为先验知识提升室内场景重建、SLAM(simultaneous localization and mapping)等多种任务的输出质量,是计算机图形学领域的热点研究内容之一.传统的多层特征提取算法一般利用RGB图像中丰富的颜色、纹理信息以及深度图像中的几何信息提取多层特征,此类提取算法依赖输入RGB-D图像的质量,而受采集过程中环境和人为因素的影响,很难得到高质量的RGB-D图像.随着深度学习技术的快速发展,基于深度学习的多层特征提取算法突破了这一限制,涌现出一批高质量的研究成果.本文对面向RGB-D图像的多层特征提取算法进行综述.首先,汇总了现有的常用于多层特征提取任务的RGB-D数据集和相关算法的质量评价指标.然后,按照特征所处的不同层次,依次对线、平面和语义特征相关算法进行了总结.此外,本文还对各算法的优缺点进行比较并结合常用算法质量评价标准进行了定量分析.最后,讨论了当前多层特征提取算法亟待解决的问题并展望了未来发展的趋势.

    RGB-D图像多层特征线特征平面特征语义特征特征提取

    跨域联合学习与共享子空间度量的车辆重识别

    汪琦雪心远闵卫东汪晟...
    1364-1380页
    查看更多>>摘要:目的 现有的跨域重识别任务普遍存在源域与目标域之间的域偏差大和聚类质量差的问题,同时跨域模型过度关注在目标域上的泛化能力将导致对源域知识的永久性遗忘.为了克服以上挑战,提出了一个基于跨域联合学习与共享子空间度量的车辆重识别方法.方法 在跨域联合学习中设计了一种交叉置信软聚类来建立源域与目标域之间的域间相关性,并利用软聚类结果产生的监督信息来保留旧知识与泛化新知识.提出了一种显著性感知注意力机制来获取车辆的显著性特征,将原始特征与显著性特征映射到一个共享子空间中并通过它们各自全局与局部之间的杰卡德距离来获取共享度量因子,根据共享度量因子来平滑全局与局部的伪标签,进而促使模型能够学习到更具鉴别力的特征.结果 在3个公共车辆重识别数据集 VeRi-776(vehicle re-identification-776 dataset)、VehicleID(large-scale vehicle re-identification dataset)和 VeRi-Wild(vehicle re-identification dataset in the wild)上与较新方法进行实验对比,以首位命中率(rank-1 accuracy,Rank-1)和平均精度均值(mean average precision,mAP)作为性能评价指标,本文方法在 VeRi-776→VeRi-Wild,VeRi-Wild→VeRi-776,VeRi-776→VehicleID,VehicleID→VeRi-776 的跨域任务中,分别在目标域中取得了 42.40%,41.70%,56.40%,61.90%的 Rank-1 准确率以及22.50%,23.10%,41.50%,49.10%的mAP准确率.在积累源域的旧知识表现中分别取得了 84.60%,84.00%,77.10%,67.00%的Rank-1准确率以及55.80%,44.80%,46.50%,30.70%的mAP准确率.结论 相较于无监督域自适应和无监督混合域方法,本文方法能够在积累跨域知识的同时有效缓解域偏差大的问题,进而提升车辆重识别的性能.

    车辆重识别跨域联合学习(CJL)交叉置信软聚类共享子空间度量(SSM)显著性感知注意力机制伪标签平滑

    融合软注意力掩码嵌入的场景文本识别方法

    陈威达王林飞陶大鹏
    1381-1391页
    查看更多>>摘要:目的 基于深度学习的端到端场景文本识别任务已经取得了很大的进展.然而受限于多尺度、任意形状以及背景干扰等问题,大多数端到端文本识别器依然会面临掩码提议不完整的问题,进而影响模型的文本识别结果.为了提高掩码预测的准确率,提出了一种基于软注意力的掩码嵌入模块(soft attention mask embedding,SAME),方法 利用Transformer更好的全局感受野,将高层特征进行编码并计算软注意力,然后将编码特征与预测掩码层级嵌入,生成更贴近文本边界的掩码来抑制背景噪声.基于SAME强大的文本掩码优化及细粒度文本特征提取能力,进一步提出了一个健壮的文本识别框架SAME-Net,开展无需字符级注释的端到端精准文本识别.具体来说,由于软注意力是可微的,所提出的SAME-Net可以将识别损失传播回检测分支,以通过学习注意力的权重来指导文本检测,使检测分支可以由检测和识别目标联合优化.结果 在多个文本识别公开数据集上的实验表明了所提方法的有效性.其中,SAME-Net在任意形状文本数据集Total-Text上实现了 84.02%的H-mean,相比于2022年的GLASS(global to local attention for scene-text spotting),在不增加额外训练数据的情况下,全词典的识别准确率提升1.02%.所提方法在多向数据集 ICDAR 2015(International Conference on Document Analysis and Recognition)也获得了与同期工作相当的性能,取得83.4%的强词典识别结果.结论 提出了一种基于SAME的端到端文本识别方法.该方法利用Transformer的全局感受野生成靠近文本边界的掩码来抑制背景噪声,提出的SAME模块可以将识别损失反向传输到检测模块,并且不需要额外的文本校正模块.通过检测和识别模块的联合优化,可以在没有字符级标注的情况下实现出色的文本定位性能.

    自然场景文本检测自然场景文本识别软注意力嵌入深度学习端到端自然场景文本检测与识别

    基于多视图自适应3D骨架网络的工业装箱动作识别

    张学琪胡海洋潘开来李忠金...
    1392-1407页
    查看更多>>摘要:目的 动作识别在工业生产制造中变得越来越重要.但在复杂的生产车间内,动作识别技术会受到环境遮挡、视角变化以及相似动作识别等干扰.基于此,提出一种结合双视图骨架多流网络的装箱行为识别方法.方法 将堆叠的差分图像(residual frames,RF)作为模型的输入,结合多视图模块解决人体被遮挡的问题.在视角转换模块中,将差分人体骨架旋转到最佳的虚拟观察角度,并将转换后的骨架数据传入3层堆叠的长短时记忆网络(long short-term memory,LSTM)中,将不同视角下的分类分数进行融合,得到识别结果.为了解决细微动作的识别问题,采用结合注意力机制的局部定位图像卷积网络,传入到卷积神经网络中进行识别.融合骨架和局部图像识别的结果,预测工人的行为动作.结果 在实际生产环境下的装箱场景中进行了实验,得到装箱行为识别准确率为92.31%,较大幅度领先于现有的主流行为识别方式.此外,该方法在公共数据集NTU(Nanyang Technological Uni-versity)RGB+D上进行了评估,结果显示在CS(cross-subject)协议和CV(cross-view)协议中的性能分别达到了85.52%和93.64%,优于其他网络,进一步验证了本文方法的有效性和准确性.结论 本文提出了一种人体行为识别方法,能够充分利用多个视图中的人体行为信息,采用骨架网络和卷积神经网络模型相结合的方式,有效提高了行为识别的准确率.

    动作识别长短时记忆网络(LSTM)双视图自适应视图转换注意力机制

    结合密集连接的轻量级高分辨率人体姿态估计

    高坤李汪根束阳葛英奎...
    1408-1420页
    查看更多>>摘要:目的 为了更好地实现轻量化的人体姿态估计,在轻量级模型极为有限的资源下实现更高的检测性能.基于高分辨率网络(high resolution network,HRNet)提出了结合密集连接网络的轻量级高分辨率人体姿态估计网络(lightweight high-resolution human estimation combined with densely connected network,LDHNet).方法 通过重新设计HRNet中的阶段分支结构以及提出新的轻量级特征提取模块,构建了轻量高效的特征提取单元,同时对多分支之间特征融合部分进行了轻量化改进,进一步降低模型的复杂度,最终大幅降低了模型的参数量与计算量,实现了轻量化的设计目标,并且保证了模型的性能.结果 实验表明,在MPII(Max Planck Institute for Informatics)测试集上相比于自顶向下的轻量级人体姿态估计模型LiteHRNet,LDHNet仅通过增加少量参数量与计算量,平均预测准确度即提升了 1.5%,与 LiteHRNet 的改进型 DiteHRNet 相比也提升了 0.9%,在 COCO(common objects in context)验证集上的结果表明,与LiteHRNet相比,LDHNet的平均检测准确度提升了 3.4%,与DiteHRNet相比也提升了 2.3%,与融合Transformer的HRFormer相比,LDHNet在参数量和计算量都更低的条件下有近似的检测性能,在面对实际场景时LDHNet也有着稳定的表现,在同样的环境下LDHNet的推理速度要高于基线HRNet以及LiteHRNet等.结论 该模型有效实现了轻量化并保证了预测性能.

    人体姿态估计轻量级网络密集连接网络高分辨率网络多分支结构

    结合时空掩码和空间二维位置编码的手势识别

    邓淦森丁文文杨超丁重阳...
    1421-1433页
    查看更多>>摘要:目的 在动态手势序列特征提取时,忽略了不同动态手势手指间的相关性,是造成手势识别率不高的重要原因.针对此问题,提出了时空位置编码和掩码的方法进行手势识别,是首次对手部关节点进行空间二维位置编码.方法 首先,根据手部关节序列构造时空图,利用关节点平面坐标生成空间二维编码,并与时间轴的一维编码器融合,生成关节点的时空位置编码,可以有效处理空间上的异常姿态同时避免时间上的乱序问题;然后,将时空图按照人体手部生物结构进行分块,通过空间自注意力和空间掩码,获取手指与手指之间的潜在信息.采用时间维度扩张的策略,通过时间自注意力和时间掩码,捕获长时间手指序列动态演变信息.结果 在DHG-14/28(dynamic hand gesture 14/28)数据集上,该算法比 HPEV(hand posture evolution volume)算法平均识别率高出 4.47%,比MS-ISTGCN(multi-stream improved spatio-temporal graph convolutional network)算法平均识别率高出 2.71%;在SHREC'17 track数据集上,该算法比HPEV算法平均识别率高出0.47%,利用消融实验证明了本文策略的合理性.结论 通过大量实验评估,验证了基于分块和时空位置编码构造出来的模型很好地解决了上述问题,提高了手势识别率.

    手势识别自注意力空间二维位置编码时空掩码手部分块

    融入变分自编码网络的文本生成三维运动人体

    李健杨钧王丽燕王永归...
    1434-1446页
    查看更多>>摘要:目的 针对现有动态三维数字人体模型生成时不能改变体型、运动固定单一等问题,提出一种融合变分自编码器(variational auto-encoder,VAE)网络、对比语言—图像预训练(contrastive language-image pretraining,CLIP)网络与门控循环单元(gate recurrent unit,GRU)网络生成运动三维人体模型的方法.该方法可根据文本描述生成相应体型和动作的三维人体模型.方法 首先,使用VAE编码网络生成潜在编码,结合CLIP网络零样本生成体型与文本表述相符的人体模型,以解决蒙皮多人线性(skinned multi-person linear,SMPL)模型参数不合理而生成不符合正常体型特征的人体模型问题;其次,采用VAE网络与GRU网络生成与文本表述相符的变长时间三维人体姿势序列,以解决现有运动生成方法仅生成事先指定的姿势序列、无法生成运动时间不同的姿势序列问题;最后,将体型特征与运动特征结合,得到三维运动人体模型.结果 在HumanML3D数据集上进行人体生成实验,并与其他3种方法进行比较,相比于现有最好方法,R精度的Top1、Top2和Top3分别提高了 0.031、0.034和0.028,弗雷歇初始距离(Fréchet inception distance,FID)提高了0.094,多样性提高了0.065.消融实验验证了模型的有效性,结果表明本文方法对人体模型生成效果有提升.结论 本文方法可通过文本描述生成运动三维人体模型,模型的体型和动作更符合输入文本的描述.

    人体动作合成自然语言处理(NLP)深度学习蒙皮多人线性模型变分自编码器网络