首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    图像与点云多重信息感知关联的三维多目标跟踪

    刘祥李辉程远志孔祥振...
    163-178页
    查看更多>>摘要:目的 三维多目标跟踪是一项极具挑战性的任务,图像和点云的多模态融合能够提升多目标跟踪性能,但由于场景的复杂性以及多模态数据类型的不同,融合的充分性和关联的鲁棒性仍是亟待解决的问题.因此,提出图像与点云多重信息感知关联的三维多目标跟踪方法.方法 首先,提出混合软注意力模块,采用通道分离技术对图像语义特征进行增强,更好地实现通道和空间注意力之间的信息交互.然后,提出语义特征引导的多模态融合网络,将点云特征、图像特征以及逐点图像特征进行深度自适应持续融合,抑制不同模态的干扰信息,提高网络对远距离小目标以及被遮挡目标的跟踪效果.最后,构建多重信息感知亲和矩阵,利用交并比、欧氏距离、外观信息和方向相似性等多重信息进行数据关联,增加轨迹和检测的匹配率,提升跟踪性能.结果 在KITTI和NuScenes两个基准数据集上进行评估并与较先进跟踪方法进行对比.KITTI数据集上,HOTA(higher order tracking accuracy)和MOTA(multi-object tracking accuracy)指标分别达到76.94%和88.12%,相比于对比方法中性能最好的模型,分别提升1.48%和 3.49%.NuScenes 数据集上,AMOTA(average multi-object tracking accuracy)和 MOTA 指标分别达到 68.3%和57.9%,相比于对比方法中性能最好的模型,分别提升0.6%和1.1%,两个数据集上的整体性能均优于先进的跟踪方法.结论 提出的方法能够准确地跟踪复杂场景下的目标,具有更好的跟踪鲁棒性,更适合处理自动驾驶场景中的三维多目标跟踪任务.

    点云三维多目标跟踪注意力多模态融合数据关联

    遮挡条件下的步态图像时空修复网络及其应用

    阳强罗坚黄宇琛
    179-191页
    查看更多>>摘要:目的 当前,基于视觉的步态识别方法多基于完整的步态序列图像.然而,现实场景拍摄下的行人难免被遮挡,以至于获取的步态图像不完整,对识别结果有很大影响.如何处理大面积遮挡是步态识别中一个具有挑战性且重要的问题.针对此,提出了一种步态时空序列重建网络(gait spatio-temporal reconstruction network,GSTRNet),用于修复被遮挡的步态序列图像.方法 使用基于3D卷积神经网络和Transformer的GSTRNet来修复步态序列,在修复每一帧步态图像的空间信息的同时保持帧与帧之间的时空连贯性.GSTRNet通过引入YOLOv5(you only look once)网络来检测步态图像的局部遮挡区域,并将其作为先验知识为遮挡修复区域分配更高的修复权值,实现遮挡区域的局部修复,将局部修复步态图与原始遮挡图像进行融合,生成完整的修复步态图.同时,在GSTRNet中引人三元组特征损失和重建损失组成的联合损失函数来优化修复网络,提升修复效果.最终,以修复完整的步态序列图像为特征进行身份识别.结果 本文在大规模步态数据集OU_MVLP(the OU-ISIR gait database,multi-view large population dataset)中人工合成遮挡步态序列数据来进行修复实验.结果 表明,该方法在面对步态轮廓大面积遮挡时,识别准确率比现有的步态修复和遮挡识别方法有一定的提升,如在未知遮挡模式时比三元组视频生成对抗网络(sequence video wasserstein generative adversarial network based on triplet hinge loss,sVideoWGAN-hinge)最高提升6.7%,非单一模式遮挡时比Gaitset等方法识别率提高40%左右.结论 本文提出的GSTRNet对各种遮挡模式下的步态图像序列有较好的修复效果,使用修复后图像进行步态识别,可有效改善识别率.

    步态识别步态轮廓修复先验知识三维卷积神经网络(3DCNN)Transformer

    融合边缘与灰度特征的形变工件精准定位方法

    李思聪朱枫吴清潇
    192-204页
    查看更多>>摘要:目的 工业机器人视觉领域经常需要对一些由拼装、冲压或贴合等工艺造成的形变工件进行精准定位,工件的大部分特征表现出一定程度的非刚性,其他具备良好一致性的部分通常特征简单,导致一些常用的目标检测算法精度不足或鲁棒性不强,难以满足实际需求.针对这一问题,提出融合边缘与灰度特征的形变工件精准定位方法.方法 第1阶段提出多归一化互相关的模板匹配MNCC(multi normalized cross correlation)方法检测形变目标,利用余弦距离下的灰度聚类获得均值模板,通过滑动窗口的方式,结合金字塔跟踪,自顶向下地优先搜索类均值模板,得到类匹配候选,然后进行类内细搜索获得最佳位置匹配.第2阶段提出一种改进的形状匹配方法T-SBM(trun-cated shape-based matching),通过改变原始SBM(shape-based matching)的梯度方向内积的计算方式,对负梯度极性方向截断,削弱目标背景不稳定导致局部梯度方向反转时对整体评分的负贡献,改善边缘稀疏或特征简单导致检测鲁棒性低的问题.最后提出二维高斯条件密度评价,将灰度特征、形状特征和形变量进行综合加权,获得理想目标评价,实现序贯检测.结果 实验部分分别与SBM、归一化互相关匹配算法(normalized cross correlation,NCC)、LINE2D(linearizing the memory 2D)算法和 YOLOv5s(you only look once version 5 small)算法在 5 种类型工件的 472 幅真实工业图像上进行了对比测试,在检出分值大于0.8(实际常用的阈值区间)时,提出算法的召回率优于其他几种测试算法;在IoU(intersection over union)阈值0.9时的平均检测准确率为81.7%,F1-Score为95%,两组指标相比其他测试算法分别至少提升了 10.8%和8.3%.在平均定位精度方面,提出算法的定位偏差在IoU阈值0.9时达到了2.44像素,在5种测试算法中的表现也为最佳.结论 提出了一种两阶段的定位方法,该方法适用于检测工业场景中由拼装、冲压和贴合等工艺制成的形变工件并能够进行精准定位,尤其适用于工业机器人视觉引导定位应用场景,并在实际项目中得到了应用.

    机器视觉目标定位二阶段检测归一化互相关匹配形状匹配(SBM)

    大场景双视角点云特征融合语义分割方法

    孙刘杰曾腾飞樊景星王文举...
    205-217页
    查看更多>>摘要:目的 点云语义分割在无人驾驶、城市场景建模等领域中具有重要意义,为了提升大场景条件下点云特征的提取效率,提出一种大场景双视角点云特征融合的语义分割方法(double-view feature fusion network for LiDAR semantic segmentation,DVFNet).方法 大场景双视角点云特征融合的语义分割方法由两个部分组成,分别为双视角点云特征融合模块和基于非对称卷积的点云特征整合模块.双视角点云特征融合模块将柱状体素特征与关键点全局特征相结合,减少降采样导致的特征损失;基于非对称卷积的点云特征整合模块将双视角点云特征使用非对称卷积进行处理,并使用多维度卷积与多尺度特征整合来实现局部特征优化.结果 本文提出的大场景双视角点云特征融合语义分割方法,在SemanticKITTI大场景点云数据集上达到63.9%的准确率,分割精度在已开源的分割方法中处于领先地位.结论 通过文中的双视角点云特征融合语义分割方法,能够实现大场景条件下点云数据的高精度语义分割.

    深度学习语义分割点云柱状体素上下文信息

    几何属性引导的三维语义实例重建

    万骏辉刘心溥陈莉丽敖晟...
    218-230页
    查看更多>>摘要:目的 语义实例重建是机器人理解现实世界的一个重要问题.虽然近年来取得了很多进展,但重建性能易受遮挡和噪声的影响.特别地,现有方法忽视了物体的先验几何属性,同时忽视了物体的关键细节信息,导致重建的网格模型粗糙,精度较低.针对这种问题,提出了一种几何属性引导的语义实例重建算法.方法 首先,通过目标检测器获取检测框参数,并对每个目标实例进行检测框盒采样,从而获得场景中对应的残缺局部点云.然后,通过编码器端的特征嵌入层和Transformer层提取物体丰富且关键的细节几何信息,以获取对应的局部特征,同时利用物体的先验语义信息来帮助算法更快地逼近目标形状.最后,本文设计了一种特征转换器以对齐物体全局特征,并将其与前述局部特征融合送入形状生成模块,进行物体网格重建.结果 在真实数据集ScanNetv2上,本文算法与现有最新方法进行了全面的性能比较,实验结果证明了本文算法的有效性.与性能排名第2的RfD-Net相比,本算法的实例重建指标提升了 8%.此外,本文开展了详尽的消融实验以验证算法中各个模块的有效性.结论 本文所提出的几何属性引导的语义实例重建算法,更好地利用了物体的几何属性信息,使得重建结果更为精细、准确.

    场景重建三维点云语义实例重建网格生成目标检测

    隐特征监督的孪生网络弱光光流估计

    肖照林苏展左逢源金海燕...
    231-242页
    查看更多>>摘要:目的 弱光照条件下成像存在信噪比低、运动模糊等问题,这对光流估计带来了极大挑战.与现有"先增强—再估计"的光流估计方法不同,为了避免在弱光图像增强阶段损失场景的运动信息,提出一种隐特征监督的弱光光流估计孪生网络学习方法.方法 首先,该方法采用权重共享的孪生网络提取可映射的弱光光流和正常光照光流特征;进而,计算弱光邻帧图像的K近邻相关性卷表,以解决计算4D全对相关性卷表的高时空复杂度问题;在全局运动聚合模块中引入针对二维运动特征的注意力机制,以降低弱光条件下强噪声、运动模糊及低对比度对光流估计的不利影响.最后,提出隐特征监督的光流估计模块,采用正常光照光流特征监督弱光照光流特征的学习,实现高精度的光流估计.结果 与3种最新光流估计方法的对比实验表明,在正常光照条件下,本文方法取得了与现有最佳光流估计方法相近的性能.在FCDN(flying chairs dark noise)数据集上,本文方法光流估计性能最优,相较于次优方法端点误差精度提升了 0.16;在多亮度光流估计(various brightness optical flow,VBOF)数据集上,本文方法端点误差精度提升了 0.08.结论 本文采用权重共享的双分支孪生网络,实现了对正常光照和弱光照光流特征的准确编码,并采用监督学习方式实现了高精度的弱光照光流估计.实验结果表明,本文方法在弱光光流估计精度及泛化性方面均具有显著优势.本文代码可在https://github.com/suzhansz/LLCV-net.git下载.

    光流估计孪生网络相关性卷表全局运动聚合弱光图像增强

    等几何连续介质弹性模型的带厚度布料仿真方法

    任靖雯戴俊飞蔺宏伟
    243-255页
    查看更多>>摘要:目的 布料仿真是计算机动画领域的一个研究热点和难点,基于粒子系统的模型快速高效却难以准确描述布料真实的物理特性,这些物理属性可以由连续介质的弹性模型利用有限元方法来实现,但所需网格单元较多,求解复杂且耗时.现有方法通常将布料建模为曲面和壳模型,对较厚布料的仿真能力较弱.针对这些常用模型在几何建模、物理真实性和仿真速度上难以兼顾的问题,提出了一种带厚度的布料仿真模型,能够更真实地表达不同厚度布料的形变行为,并利用等几何分析方法进行基于物理的快速动态仿真模拟.方法 将有厚度的布料建模为三变量B样条体表示的薄板模型,利用等几何—伽辽金方法,推导出在给定边界条件下三维连续介质线弹性力学方程的弱形式,将B样条体的控制网格作为计算网格进行仿真分析,最后在隐式动力系统框架下对线性方程组直接求解.结果 对本文布料模型进行了多方面的讨论和分析.首先,与几种主流的离散模型下的模拟效果进行了光滑度的对比,本文方法的NURBS(nonuniform rational B-splines)建模有着明显的光滑性优势;并在不同自由度下比较了与经典有限元连续介质模型的计算时间,结果表明模拟结果的平方根误差(root mean squared error,RMSE)小于0.04时,本文方法至多能减少90.23%的自由度和99.43%的计算时间;与同厚度面料的连续介质壳模型相比,计算时间减少约30%.其次,对于经典场景如悬布、旗帜和接触问题,实现了逼真快速的动态模拟效果.此外,还展示和讨论了控制网格的密度、基函数的阶数和物理参数等的选择对模拟效果的影响,验证了通过适当的几何参数和物理参数,使用更高分辨率的控制网格或更高阶的基函数将会促进更多的模拟细节效果.结论 本文提出的等几何方法模拟的厚布料模型是同时满足仿真效果和速度基本要求的有效方法,并且样条基能保持布料的光滑度,实现了更高的动态模拟效率.

    等几何分析(IGA)有限元方法(FEM)弹性力学物理仿真布料仿真

    融合局部与全局特征的DCE-MRI乳腺肿瘤良恶分类

    赵小明廖越辉张石清方江雄...
    256-267页
    查看更多>>摘要:目的 基于计算机辅助诊断的乳腺肿瘤动态对比增强磁共振成像(dynamic contrast-enhanced magnetic reso-nance imaging,DCE-MRI)检测和分类存在着准确度低、缺乏可用数据集等问题.方法 针对这些问题,建立一个乳腺DCE-MRI影像数据集,并提出一种将面向局部特征学习的卷积神经网络(convolutional neural network,CNN)和全局特征学习的视觉Transformer(vision Transformer,ViT)方法相融合的局部—全局跨注意力融合网络(local global cross attention fusion network,LG-CAFN),用于实现乳腺肿瘤DCE-MRI影像自动诊断,以提高乳腺癌的诊断准确率和效率.该网络采用跨注意力机制方法,将CNN分支提取出的图像局部特征和ViT分支提取出的图像全局特征进行有效融合,从而获得更具判别性的图像特征用于乳腺肿瘤DCE-MRI影像良恶性分类.结果 在乳腺癌DCE-MRI影像数据集上设置了两组包含不同种类的乳腺DCE-MRI序列实验,并与VGG16(Visual Geometry Group 16-layer net-work)、深度残差网络(residual network,ResNet)、SENet(squeeze-and-excitation network)、ViT 以及 Swin-S(swin-Transformer-small)方法进行比较.同时,进行消融实验以及与其他方法的比较.两组实验结果表明,LG-CAFN在乳腺肿瘤良恶性分类任务上分别取得88.20%和83.93%的最高准确率(accuracy),其ROC(receiver operating charac-teristic)曲线下面积(area under the curve,AUC)分别达到0.915 4和0.882 6,均优于其他方法并最接近1.结论 提出的LG-CAFN方法具有优异的局部—全局特征学习能力,可以有效提升DCE-MRI乳腺肿瘤影像良恶性分类性能.

    乳腺肿瘤动态对比增强磁共振成像(DCE-MRI)视觉Transformer(ViT)卷积神经网络(CNN)注意力融合

    采用多尺度视觉注意力分割腹部CT和心脏MR图像

    蒋婷李晓宁
    268-279页
    查看更多>>摘要:目的 医学图像分割是计算机辅助诊断和手术规划的重要步骤,但是由于人体器官结构复杂、组织边缘模糊等问题,其分割效果还有待提高.由于视觉Transformer(vision Transformer,ViT)在计算机视觉领域取得了成功,受到医学图像分割研究者的青睐.但是基于ViT的医学图像分割网络,将图像特征展平成一维序列,忽视了图像的二维结构,且ViT所需的计算开销相当大.方法 针对上述问题,提出了以多尺度视觉注意力(multi scale visual attention,MSVA)为基础、Transformer作为主干网络的U型网络结构MSVA-TransUNet.其采用的多尺度视觉注意力是一种由多个条状卷积实现的注意力机制,采用一个条状卷积对近似一个大核卷积的操作,采用不同的条状卷积对近似不同的大核卷积,从不同的尺度获取图像的信息.结果 在腹部多器官分割和心脏分割数据集上的实验结果表明:本文网络与基线模型相比,平均Dice分别提高了 3.74%和1.58%,其浮点数运算量是多头注意力机制的1/278,网络参数量为15.31 M,是TransUNet的1/6.88.结论 本文网络媲美当前较先进的网络TransUNet和Swin-UNet,采用多尺度视觉注意力代替多头注意力,在减少计算开销的同时在分割性能上同样具有优势.本文代码开源地址:https://github.com/BeautySilly/VA-TransUNet.

    医学图像分割视觉注意力Transformer注意力机制腹部多器官分割心脏分割

    多任务的高光谱图像卷积稀疏编码去噪网络

    涂坤熊凤超傅冠夷蛮陆建峰...
    280-292页
    查看更多>>摘要:目的 高光谱图像由于其成像机理、设备误差和成像环境等因素导致采集到的数据存在噪声.传统稀疏表示方法需要把高光谱图像划分为一系列的重叠局部图像块进行表示,通过对重叠图像块去噪结果进行平均,实现整体图像去噪.这种局部一整体去噪方法不可避免地会破坏高光谱图像空间关系,产生较差的去噪效果和视觉瑕疵.本文利用卷积算子的平移不变性,采用卷积稀疏编码(convolutional sparse coding,CSC)对高光谱图像进行整体表示,保留不同图像块之间的空间关系,提升高光谱图像去噪性能.方法 将每个波段去噪看做单任务,采用卷积稀疏编码描述单波段的局部空间结构关系.通过共享稀疏编码系数,实现不同波段之间的全局光谱关联关系建模,形成多任务卷积稀疏编码模型.多任务卷积稀疏编码模型一方面可以实现高光谱图像的空间—光谱关系联合建模;另一方面,对高光谱图像进行整体处理,有效地利用图像块之间的关系,因此具有很强的去噪能力.借鉴深度学习强大的表征能力,将多任务卷积稀疏编码模型的算法迭代过程通过深度展开(deep unfolding)方式转化为端到端可学习深度神经网络,即多任务卷积稀疏编码网络(multitask convolutional sparse coding network,MTCSC-Net),进一步提升模型去噪能力和运行效率.结果 在ICVL和CAVE(Columbia Imaging and Vision Laboratory)数据集上进行了仿真实验,在Urban数据集上进行了真实数据实验,并与8种方法进行比较,表明了本文算法的有效性.与传统基于图像块的稀疏去噪算法相比,在CAVE数据集上本文算法的峰值信噪比(peak signal-to-noise ratio,PSNR)提升1.38 dB;在ICVL数据集上提升0.64dB.结论 提出的多任务卷积稀疏编码网络能有效利用高光谱图像的空间一光谱关联信息,具有更强的去噪能力.

    高光谱图像(HSI)图像去噪卷积稀疏编码(CSC)多任务学习深度展开