首页期刊导航|图学学报
期刊信息/Journal information
图学学报
图学学报

李华

双月刊

2095-302X

txb@cgn.net.cn txxb_2011@163.com

010-82317091

100191

北京海淀学院路37号中国图学学会学报编辑部

图学学报/Journal Journal of GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是中国工程图学会主办的全国中文核心期刊和全国科技文统计用刊。本刊面向国内外公开发行,主要刊载图学专业有关图学理论与应用、图学教育理论、计算机图学与CAD、科学可视化、工业设计、图样标准化等有关方面的学术论文,重要研究成果和技术经验总结,国内外重要论著的评述和学术动态。
正式出版
收录年代

    神经辐射场加速算法综述

    王稚儒常远鲁鹏潘成伟...
    1-13页
    查看更多>>摘要:近年来,神经辐射场(NeRF)已成为计算机图形学和计算机视觉领域中一个重要的研究方向,因其高逼真的视觉合成效果,在真实感渲染、虚拟现实、人体建模、城市地图等领域得到了广泛的应用.NeRF 利用神经网络从输入图片集中学习三维场景的隐式表征,并合成高逼真的新视角图像.然而原始NeRF模型的训练和推理速度都很慢,难以在真实环境下部署与应用.针对NeRF的加速问题,研究者们从场景建模方法、光线采样策略等方面展开对NeRF进行提速的研究.该类工作大致可分为以下研究方向:烘焙模型、与离散表示方法结合、提高采样效率、利用哈希编码降低 MLP 网络复杂度、引入场景泛化性、引入深度监督信息和分解方法.通过介绍NeRF模型提出的背景,对上述思路的代表方法的优势与特点进行了讨论和分析,最后总结了NeRF相关工作在加速方面所取得的进展和对于未来的展望.

    神经辐射场视点合成神经渲染NeRF加速深度学习

    动态三维场景重建研究综述

    黄家晖穆太江
    14-25页
    查看更多>>摘要:三维重建技术旨在通过传感器输入,恢复所观测场景的数字化三维表示,是计算机图形学与视觉领域的重要研究方向,在可视化、模拟、路线规划等各类任务上都有重要应用.相比于静态场景,动态场景额外引入了时间维度,对应的重建任务不仅需要重构每帧细节几何,还需刻画目标随着时间变化的趋势与关联关系用于下游分析任务,为重建算法设计带来了更大的挑战.然而,目前学界就动态场景重建的讨论依然仅处于起步阶段,且关于现有方法的系统性总结也较为欠缺.为了填补上述空缺、进一步启发算法设计,对学界当前最新的动态三维场景重建技术进行整理和归纳,对动态三维场景重建问题及其通用求解框架进行一般性的定义,从动态三维表示方式、优化框架方面对已有技术进行综述,并针对结构化的特殊场景讨论对应的重建方法与处理方式.最终,介绍相关数据集,并对动态三维场景重建现存的问题进行分析总结,对未来工作进行展望.

    动态三维重建研究综述动态场景表示三维建模结构化场景

    基于语义引导神经网络的人体动作识别算法

    郭宗洋刘立东蒋东华刘子翔...
    26-34页
    查看更多>>摘要:近年来,采用深度前馈神经网络对骨骼关节的三维坐标建模成为了一种趋势.但网络识别准确率低、巨大的参数量以及实时性差仍然是基于骨骼数据动作识别领域中急需解决的问题.为此,提出一种基于语义引导神经网络(SGN)改进的网络模型.首先,在原网络中引入了非局部特征提取模块用于增强其在高级语义指导模型训练和预测的表现,降低了其在自然语言处理任务中的计算复杂性和推理时间;其次,引入注意力机制学习每个图卷积网络层的通道权重并减少通道间的冗余信息,进一步提高模型的计算效率和识别准确率;此外,以可变形卷积模块动态学习不同图卷积网络(GCN)层通道的权重,并有效地聚合不同通道中的关节特征用于网络最后的分类识别,从而提高特征信息的利用率.最后,在NTU RGB+D和NTU RGB+D 120公开数据集上进行人体动作识别实验.实验结果表明,所提出的网络比大多数网络小一个数量级,并且在识别准确率上明显优于原网络和其他一些先进的算法.

    人体动作识别图卷积网络语义引导神经网络非局部特征提取注意力机制可变形卷积

    基于YOLO轻量化的多模态行人检测算法

    苑朝赵亚冬张耀王嘉璇...
    35-46页
    查看更多>>摘要:针对低光照环境下行人检测精度低和模型参数量大的问题,基于YOLO框架,提出一种轻量化的多模态行人检测算法 EF-DEM-YOLO.采用轻量的 ES-MobileNet 作为主干特征提取网络,并在该网络中引入ECA和SE-ECA注意力机制模块,增强重要的通道特征,提高小目标行人的检测精度.在颈部网络中设计了基于深度可分离卷积的 DBL 模块,进一步缩减模型的参数量.另外,为了提高低光照条件下行人的检测精度,利用可见光模态和红外模态在不同光照条件下特征互补的特点,提出了基于图像熵的可见光与红外模态加权融合方法,并设计了融合模块EWF.相比与基准方法,该算法对于不同光照条件下的行人目标,模型的mAP提高 55.5%,MR降低 85.9%,模型的推理速度达到 33.4 帧/秒,并且均优于其他经典的目标检测算法,为边缘计算和低光照场景下的行人目标的实时检测提供了可能.

    行人检测YOLO轻量化多模态深度可分离图像熵

    基于融合MBAM与YOLOv5的PCB缺陷检测方法

    胡欣胡帅马丽军司利云...
    47-55页
    查看更多>>摘要:随着电子信息产业迅速发展,PCB行业作为电子信息产业的基础,其产品质量对后续生产的电子产品有着决定性影响.针对PCB缺陷目标较小,缺陷类型多,特征不明显,在实际生产过程中易产生误检、漏检等问题,提出了一种多分支注意力MBAM模块方法,在 3 个不同维度对特征图进行关注,以增强特征提取的能力,对缺陷区域给予更多的注意力表示.通过改进YOLOv5 结构,将MBAM与YOLOv5 网络结合,有效的提升了对PCB中小目标的检测性能.最后通过在网络不同位置添加MBAM模块进行对比实验,选取了最佳的添加位置.通过在PCB缺陷数据集上的实验结果表明,改进后的PCB缺陷检测算法具有良好的检测性能,优于其他对比算法,最终的AP达到了 96.7%,对比标准YOLOv5 的 94.7%提高了 2 个百分点,其他项指标均有涨点,在保持检测速度基本不变的情况下,精准地识别PCB缺陷类型.

    目标检测PCB缺陷小目标缺陷YOLOv5多分支注意力模块

    基于增强特征提取网络与语义特征融合的多方向文本检测

    吕伶李华王武
    56-64页
    查看更多>>摘要:针对自然场景文本长度不定、角度倾斜等难题,提出了一种基于增强特征提取网络与语义特征融合的文本检测方法.通过结合可变形卷积与空洞卷积,设计了一种增强扩张残差模块EDRM(Enhanced Dilated Residual Module),将其应用于ResNet18 的conv4_x与conv5_x层,并以此作为骨干网络,在改善网络特征提取能力的同时提高特征图像分辨率,减少空间信息丢失.其次,针对现有算法提取文本语义特征仍不充分的问题,将双向长短期记忆网络BiLSTM(Bi-directional Long Short-Term Memory)引入特征融合部分,增强融合特征图对自然场景文本的表征能力以及特征序列的关联性,同时提高模型的文本定位能力.在多方向文本数据集ICDAR2015、长文本数据集MSRA-TD500 上对模型展开评估,实验结果表明,该算法与当下高效的 DBNet算法相比,F值分别提升 1.8%、3.3%,表现出良好的竞争力.

    可变形卷积空洞卷积文本检测语义特征双向长短期记忆网络

    基于高低频特征分解的深度多模态医学图像融合网络

    王欣雨刘慧朱积成盛玉瑞...
    65-77页
    查看更多>>摘要:多模态医学图像融合旨在利用跨模态图像的相关性和信息互补性,以增强医学图像在临床应用中的可读性和适用性.然而,现有手工设计的模型无法有效地提取关键目标特征,从而导致融合图像模糊、纹理细节丢失等问题.为此,提出了一种新的基于高低频特征分解的深度多模态医学图像融合网络,将通道注意力和空间注意力机制引入融合过程,在保持全局结构的基础上保留了局部纹理细节信息,实现了更加细致的融合.首先,通过预训练模型VGG-19提取两种模态图像的高频特征,并通过下采样提取其低频特征,形成高低频中间特征图.其次,在特征融合模块嵌入残差注意力网络,依次从通道和空间维度推断注意力图,并将其用来指导输入特征图的自适应特征优化过程.最后,重构模块形成高质量特征表示并输出融合图像.实验结果表明,该算法在Harvard公开数据集和自建腹部数据集峰值信噪比提升 8.29%,结构相似性提升 85.07%,相关系数提升 65.67%,特征互信息提升46.76%,视觉保真度提升80.89%.

    多模态医学图像融合预训练模型深度学习高低频特征提取残差注意力网络

    基于Transformer的三角形网格分类分割网络

    李佳琦王辉郭宇
    78-89页
    查看更多>>摘要:三角形网格是一种重要的几何数据结构,能有效地表达三维模型的形状细节,但三角形网格面元素的分布并不规则,因此将现有的深度神经网络直接应用到网格上较为困难.针对三角形网格不规则的结构问题,直接将网格的面作为Token,提出一种将Transformer应用于三角形网格的深度神经网络.首先,将面的重心坐标或谱域特征作为位置信息,融合其内蕴特征作为输入特征,并对输入特征位置嵌入;其次,利用自注意力模块提取全局特征,利用面卷积模块提取局部特征,以增强网络局部特征的提取能力;最后,融合局部特征和全局特征构建应用于三角形网格上的分类和分割深度神经网络.在SHREC分类数据集和COSEG分割数据集上的实验结果表明,该方法准确率较高且可以有效地提升训练速度.

    几何深度学习Transformer三角形网格三维形状分类三维形状分割

    IDD-YOLOv7:一种用于输电线路绝缘子多缺陷的轻量化检测方法

    翟永杰赵晓瑜王璐瑶王亚茹...
    90-101页
    查看更多>>摘要:YOLO目标检测算法是当前基于图像的输电线路绝缘子缺陷检测的主流方法,然而现有模型复杂度较大,亟需合理有效的参数压缩方法作为前提条件,来为解决无人机边缘设备部署的困境问题奠定基础;同时,无人机航拍的绝缘子缺陷图像背景复杂、缺陷尺寸较小,容易出现误检、漏检等问题.为此,提出了一种用于输电线路绝缘子多缺陷检测的Insulator Defect Detection-YOLOv7(IDD-YOLOv7)模型,以降低模型复杂度,提高模型鲁棒性.首先,在多尺度特征融合的过程中加入坐标注意力(Coordinate Attention)机制,抑制复杂背景的干扰,提升模型对小目标的全局感知能力;之后,设计C3GhostNetV2 模块,用于捕获不同空间像素之间的远程依赖性,在增强模型表达能力的同时降低模型的参数量和浮点运算量;最后,提出 Focal-CIoU 损失函数,提高模型高质量anchor的贡献,加快模型的收敛速度.实验结果表明,本文方法与基线模型相比mAP50提升了 3.8%,查准率和召回率分别提升了 1.7%和 7.6%,参数量和浮点运算量分别下降了 18.3%和 14.0%,绝缘子自爆、破损、闪络缺陷的AP50 分别提升了 0.8%、4.5%、6.3%.

    YOLOv7绝缘子缺陷检测注意力机制模型复杂度轻量化损失函数

    基于SASGAN的戏剧脸谱多样化生成

    古天骏熊苏雅林晓
    102-111页
    查看更多>>摘要:为解决现有自动生成的戏剧脸谱在分辨率和真实性上效果不佳的问题,提出了基于自注意力机制的风格化生成对抗网络(SASGAN).首先在 StyleGAN 的基础上引入了自注意力机制以及矢量量化方法,增强了对脸谱图案几何结构特征的提取,接着通过多样化差异性增强(DDG)扩充数据,采用脸谱色调辅助算法对 DDG方法进行补充,建立了包含12 599张图像的戏剧脸谱数据集,最后在此数据集上进行训练,生成了兼顾多样性和真实性的脸谱图像.实验结果表明,对于戏剧脸谱图像,DDG 方法较传统方法在数据增广方面有着较大提升,而SASGAN则提升了戏剧脸谱图像的分辨率和真实性,在主观视觉上得到了理想的效果.

    戏剧脸谱生成对抗网络图像生成注意力机制矢量量化