首页期刊导航|图学学报
期刊信息/Journal information
图学学报
图学学报

李华

双月刊

2095-302X

txb@cgn.net.cn txxb_2011@163.com

010-82317091

100191

北京海淀学院路37号中国图学学会学报编辑部

图学学报/Journal Journal of GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是中国工程图学会主办的全国中文核心期刊和全国科技文统计用刊。本刊面向国内外公开发行,主要刊载图学专业有关图学理论与应用、图学教育理论、计算机图学与CAD、科学可视化、工业设计、图样标准化等有关方面的学术论文,重要研究成果和技术经验总结,国内外重要论著的评述和学术动态。
正式出版
收录年代

    一种用于互惠目标检测与实例分割的深层架构

    宫永超沈旭昆
    745-759页
    查看更多>>摘要:目标检测与实例分割是计算机视觉中 2 种重要且关系紧密的任务,但其间的关联在大多数工作中还未得到充分的探索.为此,提出了 RDSNet,一种用于互惠目标检测与实例分割的深层架构.为了实现这2 种任务之间协同优化,设计了一个双流式结构来联合学习目标级别和像素级别的特征表达,分别用于编码目标级别和像素级别的信息,并在双流之间引入了 3 个模块来实现二者的相互作用,让目标信息辅助实例分割,像素信息辅助目标检测.通过相关模块提供一种计算目标级和像素级特征相似度的手段,以便于驱动属于同一目标的特征尽可能一致,提高实例掩码的精度.裁剪模块利用目标信息为像素级感知引入实例的概念和平移变化性,以便于更准确地区分不同实例和减少背景噪声.为了进一步提高检测框与目标的贴合程度,提出了基于掩码的边界精细化模块来对掩码和检测框做融合,利用掩码的准确性优势修正检测框的误差.在 COCO 数据集上的大量实验分析和对比证实了RDSNet的有效性和高效性.此外,通过在边界精细化模块引入掩码打分策略,以新的方式实现了实例分割对目标检测的辅助,使RDSNet的性能得到了进一步提升.

    目标检测实例分割互惠关系特征表达边界精细化

    基于骨骼点动态时域滤波的人体动作识别

    李松洋王雪婷陈相龙陈恩庆...
    760-769页
    查看更多>>摘要:人体动作识别是计算机视觉的重要研究方向,广泛应用于智能监控、人机交互等领域.现有基于骨骼点的动作识别方法多采用图卷积网络(GCN)和时间卷积网络(TCN)级联的方式实现,而后者卷积核的尺寸限制了模型的全局时间建模能力.此外,仅使用卷积处理骨骼点数据缺乏对于不同骨骼点的区分能力,并且TCN提取特征时往往会重复计算,使得TCN的参数量随着网络层数的加深而增大.借助信号处理的方法提出了一种适用于骨骼点的动态时域滤波模块(SDTF),用于代替 TCN对时间特征进行全局建模,并在此基础上对AGCN进行轻量化改进,提出的AGCN-SDTF动作识别模型降低了模型复杂度.SDTF通过傅里叶变换对时间特征进行建模,将傅里叶变换得到的频域特征与滤波得到的频域输出相乘再经过傅里叶逆变换,从而实现对全局时间特征的提取.在 NTU-RGBD 和 Kinetics-Skeleton 大型数据集上的实验结果表明,该模型在达到与原模型相同的识别效果时,降低了模型所需的参数量和计算量.

    人体动作识别图卷积网络动态时域滤波傅里叶变换时间卷积网络

    基于注意力机制的多尺度道路损伤检测算法研究

    武兵田莹
    770-778页
    查看更多>>摘要:路损伤检测是道路养护与修复的一项重要任务.现有的道路损伤检测方式以传统的人工检测为主,人工检测需要投入大量的人力和物力,检测效率低,无法适应当前道路发展的需求.进而提出了一种改进的多尺度道路损伤检测算法YOLOv8-RDD.首先,YOLOv8-RDD算法在C2f模块中使用可变形卷积(DCN)建了全新的 C2f_DCN模块,扩大感受野的有效范围,更准确地定位目标对象的边界和位置,有助于提升对目标的识别和定位能力;其次,网络末端设计了全新的 SPPF_GS 模块,在 SPPF 模块中引入了自注意力机制(SA)和幻影卷积 Ghost 模块,并重新优化了池化核的大小,更好的处理长距离依赖性和捕获全局信息;最后,在Neck 中引入坐标注意力机制(CA),强化模型的特征提取能力,减少冗余信息.实验结果表明,改进后的算法在RDD2022 数据集上面的精确度(Precision)为 61.1%、召回率(Recall)为 55.5%,平均精度(mAP)为 56.2%,相较于YOLOv8n算法分别提高了 4.6%、4.7%和 5.2%,在道路损伤的目标检测上取得了优异的效果.

    道路损伤检测YOLOv8可变形卷积注意力机制Ghost模块

    面向交通标志的改进YOLO目标检测算法

    赵磊李栋房建东曹琪...
    779-790页
    查看更多>>摘要:针对当前算法在面对交通标志时存在识别精度低、检测错误较多等问题,提出了一种基于YOLOv5 优化的交通标志检测方法.在 Backbone部分,为了获得不同大小的感受野,不同复杂度的特征,并增强特征图的重要特征,抑制冗余特征,使用 DBB 重参数模块代替 Conv 卷积,并加入 SE 注意力机制;在Neck部分,设计了新的SLA Neck,聚合来自不同层的特征图,有效防止小目标特征信息损失,对融合后的特征进行上采样,增加小目标检测层,增强浅层语义信息;在Head部分引入IoU-Aware查询选择,即将IoU分数引入分类分支的目标函数,预测框与GT的IoU作为类别预测的标签,以实现对正样本分类和定位的一致性约束;使用SIoU损失函数代替CIoU损失函数,考虑真实框与预测框之间的方向,提升收敛速度和推理能力.实验结果表明,在TT100K数据集下,方法相较于YOLOv5m,计算量减少了 3.3%,参数量减少了 34.8%,而mAP和mAP@50:95 分别提升了 13.8%和 10.4%.实验说明,该模型在减少模型参数量及大小的同时提高了检测精度,具有应用价值.

    交通标志检测YOLOv5重参数化注意力机制SLA

    基于时间动态帧选择与时空图卷积的可解释骨架行为识别

    梁成武杨杰胡伟蒋松琪...
    791-803页
    查看更多>>摘要:骨架行为识别是计算机视觉和机器学习领域的研究热点.现有数据驱动型神经网络往往忽略骨架序列时间动态帧选择和模型内在人类可理解的决策逻辑,造成可解释性不足.为此提出一种基于时间动态帧选择与时空图卷积的可解释骨架行为识别方法,以提高模型的可解释性和识别性能.首先利用骨架帧置信度评价函数删除低质骨架帧,以解决骨架序列噪声问题.其次基于人体运动领域知识,提出自适应时间动态帧选择模块用于计算运动行为显著区域,以捕捉关键人体运动骨架帧的动态规律.为学习行为骨架节点内在拓扑结构,改进时空图卷积网络用于可解释骨架行为识别.在NTU RGB+D,NTU RGB+D 120 和FineGym这 3 个大型公开数据集上的实验评估表明,该方法的骨架行为识别准确率优于对比方法并具有可解释性.

    行为识别骨架序列可解释运动显著区域时空图卷积网络

    面向建筑彩绘纹样的高质量贴图重构方法

    龚辰晨曹力张腾腾吴奕泽...
    804-813页
    查看更多>>摘要:建筑彩绘是绘制在木构建筑上的精美图案.在古建筑进行数字化展示时,通用处理方法是以网格模型加单张纹理的模式进行绘制.由于单张纹理贴图分辨率有限,无法展示所有细节,且常见的纹理为位图格式,使用多张高分辨率贴图会导致显存占用过大,致使数据交换效率变低.为解决上述难题,提出了一种高质量贴图重构方法.利用彩绘图案的自相似性和对称性,提取彩绘纹样最小不重复单元及版式信息.使用矢量数据表示最小图元并构建纹样素材库.在编辑三维模型的彩绘纹案时,通过复用图元并配置相应变换参数编码生成描述性文件,用以完成彩绘内容的渲染.实验结果表明,该方法有效减少了重复信息的存储,且提供更为清晰的细节,更好地进行数字化展示.

    真实感绘制图像矢量化表达版式结构纹理压缩建筑彩绘纹样

    高分辨率人脸纹理图全流程生成方法

    朱宝旭刘漫丹张雯婷谢立志...
    814-826页
    查看更多>>摘要:针对人脸纹理生成相关研究大部分聚焦于低分辨率纹理生成的问题,将图像翻译运用到高分辨率纹理图的生成中,提出一种以图像翻译网络为核心的1024×1024纹理图的全流程生成方法.在快速高效生成的同时,有效缓解了生成人脸UV纹理分辨率低的问题.在图像翻译网络中,由卷积神经网络作为骨干网络,嵌入统计纹理学习网络(STLNet),并采用软自适应层实例规范化(Soft-AdaLIN)的归一化方法共同构成生成器,同时采用多尺度判别来指导高分辨率纹理图像的生成,最后进行颜色转换与泊松融合完成纹理校正.在FFHQ数据集随机抽取图像并进行人脸归一化后进行测试,通过一系列评价指标进行定量评估、同近年相关研究方法进行定性及定量比较,验证了该全流程生成方法在生成1024×1024人脸UV纹理图像上的优势.

    人脸图像翻译人脸纹理图高分辨率生成对抗网络统计纹理学习纹理映射

    大型公共场所全息地图信息交互应用研究

    侯文军郭雨阳李桐
    827-833页
    查看更多>>摘要:全息技术具有独特的真三维显示能力,有助于提供生动准确的视觉感知和自然的交互体验,未来将在图像和信息演示相关方面具有广泛的实际应用.此外,随着地理信息发展与地图普适化应用,地图成为大众十分重要的工具.其中,大型公共场所全息地图具有广泛的需求和较高的应用价值,其固有的信息融合特点与信息承载特性也使得其呈现形式具有较深的研究意义.为此,首先从地图内容、空间特性、交互特性的角度分析大型公共场所全息地图的信息显示特征,并通过实验展开标地方式与信息层级的研究.实验结果显示,基础场景图层以空间视角锁定的方式呈现最佳;相关联的泛在信息图层以用户视角锁定的方式呈现最佳,其信息层级适用空间纵深架构方案.基于所得结论,并结合大型公共空间的场景特点和用户诉求,进行大型公共场所全息地图系统的设计实践,为全息技术的落地与应用提供一定的参考和启示.

    全息地图信息交互空间参考系用户视角信息层级空间布局

    基于关键视图的文本驱动3D场景编辑方法

    张冀崔文帅张荣华王文彬...
    834-844页
    查看更多>>摘要:基于去噪扩散模型的零样本图像编辑方法取得了瞩目的成就,将之应用于 3D 场景编辑可实现零样本的文本驱动3D场景编辑.然而,其3D编辑效果容易受扩散模型的3D连续性与过度编辑等问题影响,产生错误的编辑结果.针对这些问题,提出了一种新的文本驱动 3D编辑方法,该方法从数据端着手,提出了基于关键视图的数据迭代方法与基于像素点的异常数据掩码模块.关键视图数据可以引导一个3D区域的编辑以减少3D不一致数据的影响,而数据掩码模块则可以过滤掉 2D输入数据中的异常点.使用该方法,可以实现生动的照片级文本驱动3D场景编辑效果.实验证明,相较于一些目前先进的文本驱动3D场景编辑方法,可以大大减少3D场景中错误的编辑,实现更加生动的、更具真实感的 3D编辑效果.此外,使用该方法生成的编辑结果更具多样性、编辑效率也更高.

    扩散模型文本驱动3D场景编辑关键视图数据掩码

    基于BIM和三维激光扫描的桁架几何质量自动化检测研究

    邹亚坤陈贤川谭毅林永枫...
    845-855页
    查看更多>>摘要:桁架结构因其自重轻、承载能力强而广泛应用于大跨度公共建筑中,随着使用时间的增加,需要对其结构几何质量进行定期检测以确保其安全性.然而,传统的桁架结构几何质量检测主要依赖人工手段,效率低下且成本高昂.为了实现桁架结构的高效几何质量检测,提出一种基于建筑信息模型(BIM)和三维激光扫描的自动化检测算法.首先,通过 BIM 将获得的原始点云数据中的桁架结构与背景分离.然后,基于关键点检测技术自动提取桁架结构的几何特征并实现节点坐标的定位计算.最后,将计算结果与 BIM 中的设计信息进行比较,获得几何质量检测结果.深圳市某校园内的演会中心被用于该方法的验证.实验结果表明,该算法的计算结果与全站仪的测量结果误差不超过 2 mm.其与BIM模型数据进行对比,检测出桁架结构的节点存在不同程度的沉降.因此,该方法能准确快速地实现节点的空间定位,提高桁架结构几何质量检测的效率.

    自动化桁架几何质量BIM三维激光扫描