首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    混合现实飞行模拟器的神经重光照方法

    祁佳晨解利军阮文凯王孝强...
    3008-3021页
    查看更多>>摘要:目的 混合现实技术通过混合现实场景和虚拟场景,为飞行模拟器提供了沉浸式体验.由于现实场景和虚拟场景的光照条件不一致,混合结果往往使用户产生较强的不协调感,从而降低体验沉浸感.本文使用虚拟场景的光照条件对机舱现实图像场景进行重光照,解决光照不一致问题.方法 受计算机图形学重要的渲染方法——预计算辐射传输法的启发,首次提出一种基于辐射传输函数估计的神经重光照方法.首先使用卷积神经网络估计输入图像中每个渲染点的辐射传输函数在球谐函数上的系数形式表达,同时将虚拟环境中提供光照信息的环境光贴图投影到球谐函数上,最后将对应球谐系数向量进行点乘,获得重光照渲染结果.结果 目视评测,生成的重光照图像与目标光照条件匹配程度良好,同时保留原图中细节,未出现伪影等异常渲染结果.以本文生成的重光照数据集为基准进行测试,本文方法生成结果峰值信噪比达到28.48 dB,比相似方法高出7.5%.结论 成功在多款战斗机模型中应用了上述方法,可以根据给定虚拟飞行场景中的光照条件,对现实机舱内部图像进行重光照,实现机舱内外图像光照条件一致,提升了应用混合现实的飞行模拟器的用户沉浸感.

    重光照神经渲染方法辐射传输函数混合现实(MR)飞行模拟器

    超声波空中触觉图形呈现的时空调制方法

    时佳豪孙士友杨芳雁陈建...
    3022-3032页
    查看更多>>摘要:目的 超声波空中触觉反馈技术为虚拟现实、混合现实提供非接触、无约束的触觉体验,是混合现实领域触觉呈现的主要途径.使用传统调制方法对多点图形进行聚焦呈现时,在每个调制周期内只进行单点聚焦,发射阵列的使用率较低,聚焦过程中产生噪声较大.针对现有调制方法的不足之处,提出了一种新型时空调制方法来提高阵列利用率并降低聚焦时产生的噪声.方法 首先,根据所需呈现图形获取多个焦点的位置数据,计算每个焦点聚焦时发射器所需延时时间并进行储存;其次,将调制信号的周期按聚焦点个数进行平均分配,并生成超声发射器驱动信号;最后,将驱动信号发送至延时模块,并在调制信号周期的不同时间片内,将各聚焦点的延时数据送入,实现多点聚焦触觉同步的效果.结果 通过实验对新型调制方法进行测试,在进行占空比为10%和20%的两点聚焦时,相比于传统调制方法,调制噪声分别降低了 8.4%和13%,聚焦功耗提高了 80%和86%;在进行占空比为10%和20%的四点聚焦时,相比于传统调制方法,调制噪声降低了6.3%和10.1%,聚焦功耗分别提高了 60%和100%.在主观图形识别实验中,三角形、矩形、圆形的识别率分别提升了25%、19%、35%.实验结果表明新型调制方法降低了聚焦噪声,提高了阵列利用率以及对呈现图形的识别率.结论 本文所提出的新型时空调制方法有效减小了聚焦噪声,提供了更好的触觉图形反馈效果.

    图形呈现时空调制超声波反馈空中触觉多点触觉

    融合非局部特征表示的模糊图像复原

    华夏舒婷李明欣时愈...
    3033-3046页
    查看更多>>摘要:目的 基于深度学习的端到端单图像去模糊方法已取得了优秀成果.但大多数网络中的构建块仅专注于提取局部特征,而在建模远距离像素依赖关系方面表现出局限性.为解决这一问题,提出了一种为网络引入局部特征和非局部特征的方法.方法 采用现有的优秀构建块提取局部特征,将大窗口的Transformer块划分为更小的不重叠图像块,对每个图像块仅采样一个最大值点参与自注意力运算,在不占用过多计算资源的情况下提取非局部特征.最后将两个模块结合应用,在块内耦合局部信息和非局部信息,从而有效捕捉更丰富的特征信息.结果 实验表明,相比于仅能提取局部信息的模块,提出的模块在峰值信噪比(peak signal-to-noise ratio,PSNR)指标上的提升不少于1.3dB.此外,设计两个局部与非局部特征耦合的图像复原网络,分别运用在单图像去运动模糊和去散焦模糊任务上,与 Uformer(a general U-shaped Transformer for image restoration)相比,在去运动模糊测试集 GoPro(deep multi-scale convolutional neural network for dynamic scene deblurring)和 HIDE(human-aware motion deblurring)上的平均PSNR分别提高了 0.29 dB和0.25 dB,且模型的浮点数更低.在去散焦模糊测试集DPD(defocus deblurring using dual-pixel data)上,平均PSNR提高了0.42dB.结论 本文方法在块内成功引入非局部信息,使得模型能够同时捕捉局部特征和非局部特征,获得更多的特征表示,提升了去模糊网络的性能.同时,恢复图像也具有更清楚的边缘,更接近真实图像.

    运动模糊散焦模糊自注意力非局部特征融合网络

    多位平面循环的优化截取内嵌码块编码VLSI结构

    章楚邯肖永生杨培靖黄丽贞...
    3047-3059页
    查看更多>>摘要:目的 EBCOT(embedded block coding with optimized truncation)优化截取内嵌码块编码的结果对JPEG2000的压缩质量产生直接影响,且EBCOT编码在整个JPEG2000压缩过程中占据较长时间.此外,由于该算法的复杂性较高,在硬件实现时需要考虑其对硬件资源的使用率.对此,提出了一种高效的EBCOT编码VLSI(very large scale integration circuit)结构.方法 首先,EBCOT编码分为两部分:Tier1编码与Tier2编码.针对影响编码速度的Tier1编码部分,设计了一种全新的编码窗口结构,即多位平面循环编码(multi-bitplanes cyclic encoding,MBCE),其通过预测的方式对连续的位平面进行编码;针对Tier2编码部分中的通道失真误差计算,设计了与Tier1编码并行的流水线计算结构.结果 采用Verilog语言对该VLSI结构进行描述,将FPGA(field programmable gate array)作为实验验证平台,从多个角度与现有的EBCOT优化VLSI结构进行比较.从编码效率上来看,MBCE结构在实现全通道并行的基础上,编码效率有明显的提升、所占用的硬件资源较少、工作频率较高.在同一压缩条件下,使用MBCE结构与以JPEG2000为标准的图像压缩软件对同一幅512×512像素的8位灰度图像进行压缩对比,峰值信噪比(peak signal-to-noise ratio,PSNR)的误差不超过0.05 dB,在xc4vlx25型号FPGA上其工作频率可以达到193.1 MHz,每秒能够处理370帧图像.结论 本文提出的全通道MBCE的EBCOT编码VLSI结构,具有资源占用率低、编码周期短、压缩质量好的特点.

    EBCOT编码多位平面循环编码(MBCE)通道失真计算通道并行VLSI结构

    自适应光流估计驱动的微表情识别

    包永堂武晨曦张鹏单彩峰...
    3060-3073页
    查看更多>>摘要:目的 微表情识别旨在从面部肌肉应激性运动中自动分析和鉴别研究对象的情感类别,其在谎言检测、心理诊断等方面具有重要应用价值.然而,当前微表情识别方法通常依赖离线光流估计,导致微表情特征表征能力不足.针对该问题,提出了一种基于自适应光流估计的微表情识别模型(adaptive micro-expression recognition,AdaMER).方法 AdaMER并行联立实现光流估计和微表情分类两个任务自适应学习微表情相关的运动特征.首先,提出密集差分编码—解码器以提取多层次面部位移信息,实现自适应光流估计;然后,借助视觉Transformer挖掘重建光流蕴含的微表情判别性信息;最后,融合面部位移微表情语义信息与微表情判别信息进行微表情分类.结果 在由 SMIC(spontaneous micro-expression recognition)、SAMM(spontaneous micro-facial movement dataset)和CASME Ⅱ(the Chinese Academy of Sciences micro-expression)构建的复合微表情数据集上进行大量实验,结果显示本文方法 UF1(unweighted F1-score)和 UAR(unweighted average recall)分别达到了 82.89%和 85.95%,相比于最新方法FRL-DGT(feature representation learning with adaptive displacement generation and Transformer fusion)分别 提升了1.77%和4.85%.结论 本文方法融合了自适应光流估计与微表情分类两个任务,一方面以端到端的方式实现自适应光流估计以感知面部细微运动,提高细微表情描述能力;另一方面,充分挖掘微表情判别信息,提升微表情识别性能.

    微表情识别自适应光流估计运动特征差分编码特征融合

    结合频率和ViT的工业产品表面相似特征缺陷检测方法

    王素琴程成石敏朱登明...
    3074-3089页
    查看更多>>摘要:目的 工业产品表面的缺陷检测是保证其质量的重要环节.针对工业产品表面缺陷与背景相似度高、表面缺陷特征相似的问题,提出了一种差异化检测网络YOLO-Differ(you only look once-difference).方法 该网络以YOLOv5(you only look once version 5)为基础,利用离散余弦变换算法和自注意力机制提取和增强频率特征,并通过融合频率特征,增大缺陷与背景特征之间的区分度;同时考虑到融合中存在的错位问题,设计自适应特征融合模块对齐并融合RGB特征和频率特征.其次,在网络的检测模块后新增细粒度分类分支,将视觉变换器(vision Trans-former,ViT)作为该分支中的校正分类器,专注于提取和识别缺陷的微小特征差异,以应对不同缺陷特征细微差异的挑战.结果 实验在3个数据集上与7种目标检测模型进行了对比,YOLO-Differ模型均取得了最优结果,与其他模型相比,平均准确率均值(mean average precision,mAP)分别提升了 3.6%、2.4%和0.4%以上.结论 YOLO-Differ模型与同类模型相比,具有更高的检测精度和更强的通用性.

    表面缺陷检测相似性频率特征细粒度分类通用性

    结合文本自训练和对抗学习的领域自适应工业场景文本检测

    吕学强权伟杰韩晶陈玉忠...
    3090-3103页
    查看更多>>摘要:目的 快速检测工业场景中的文本,可以提高生产效率、降低成本,然而数据的标注耗时耗力,鲜有标注信息可用,针对目前方法在应用到工业数据时存在伪标签质量低和域差距较大等问题,本文提出了一种结合文本自训练和对抗学习的领域自适应工业场景文本检测方法.方法 首先,针对伪标签质量低的问题,采用教师学生框架进行文本自训练.教师和学生模型应用数据增强和相互学习缓解域偏移,提高伪标签的质量;其次,针对域差距,提出图像级和实例级对抗学习模块来对齐源域和目标域的特征分布,使网络学习域不变特征;最后,在两个对抗学习模块之间使用一致性正则化进一步缓解域差距,提高模型的域适应能力.结果 实验证明,本文的方法在工业铭牌数据集的精确率、召回率和F1值分别达到96.2%、95.0%和95.6%,较基线模型分别提高了 10%、15.3%和12.8%.同时在ICDAR15和MSRA-TD500数据集上也表现出良好性能,与当前先进的方法相比,F1值分别提高0.9%和3.1%.此外,本文的方法在应用到EAST(efficient and accurate scene text detector)文本检测模型后,铭牌数据集的各指标分别提升5%,11.8%和9.5%.结论 本文提出的方法成功缓解了源域与目标域数据之间的差距,显著提高了模型的泛化能力,并且具有良好的通用性,同时模型推理阶段不会增加计算成本.

    场景文本检测领域自适应文本自训练特征对抗学习一致性正则化

    融合场景先验的船名文本检测方法

    陈博伟易尧华汤梓伟彭继兵...
    3104-3115页
    查看更多>>摘要:目的 船名文本信息是船舶身份识别的核心要素.真实场景船舶影像中文本区域尺度不一导致船名文本检测存在漏检等问题.同时,现有自然场景文本检测算法难以排除背景文本、图案等因素对船名检测任务的干扰.因此,针对以上问题提出一种融合场景先验的船名检测方法.方法 首先,依据船首与船名目标关联性,提出一个基于先验损失的区域监督模块,以约束模型关注船名文本区域特征.然后,为了提高文本区域细粒度,提出一个基于非对称卷积的船名区域定位模块,增强文本区域边缘信息,进一步提高船名检测的召回率.结果 本文收集、标注并公开发布了一个真实场景船名文本检测数据集CBWLZ2023进行实验验证,并与最新的8种通用自然场景文本检测方法进行比较.本文算法在船名文本检测任务上取得了 94.2%的F1值,相比于性能第2的模型,F1值提高了 2.3%;相比于基线模型,F1值提高了 2.8%.同时在CBWLZ2023数据集中进行了参数分析实验及消融实验以验证算法各模块的有效性.实验结果证明提出的算法能准确获取边界清晰的文本区域,改善了船名文本检测的效果.结论 本文提出的融合场景先验的船名检测模型,可以解决船名文本尺度不一、背景文本干扰带来的问题,在检测精度上超过了现有的场景文本检测算法,具有有效性与先进性.CBWLZ2023可由https://aistudio.baidu.com/aistudio/datasetdetail/224137 获取.

    船名文本检测场景先验损失区域监督特征增强非对称卷积

    面向三维人体坐标及旋转角估计的注意力融合网络

    薛峰边福利李书杰
    3116-3129页
    查看更多>>摘要:目的 三维人体姿态估计是计算机视觉的研究热点之一,当前大多数方法直接从视频或二维坐标点回归人体三维关节坐标,忽略了关节旋转角的估计.但是,人体关节旋转角对于一些虚拟现实、计算机动画应用至关重要.为此,本文提出一种能同时估计三维人体坐标及旋转角的注意力融合网络.方法 首先应用骨骼长度网络和骨骼方向网络分别从2D人体姿态序列中估计出人体骨骼长度和骨骼方向,并据此计算出初步的三维人体坐标,然后将初步的三维坐标输入关节旋转角估计网络得到关节旋转角,并应用前向运动学(forward kinematics,FK)层计算与关节旋转角对应的三维人体坐标.但由于网络模块的误差累积,与关节旋转角对应的三维人体坐标比初步的三维坐标精度有所降低,但是FK层输出的三维坐标具有更稳定的骨架结构.因此,为了综合这两种三维坐标序列的优势,最后通过注意力融合模块将初步的三维坐标及与关节旋转角对应的三维人体坐标融合为最终的三维关节坐标.这种分步估计的人体姿态估计算法,能够对估计的中间状态加以约束,并且使用注意力融合机制综合了高精度和骨骼稳定性的特点,使得最终结果的精度得到提升.另外,设计了一种专门的根关节处理模块,能够输出更高精度的根关节坐标,从而进一步提升三维人体坐标的精度和平滑性.结果 实验在Human3.6M数据集上与对比方法比较平均关节位置误差(mean per joint position error,MPJPE),结果表明,与能够同时计算关节点坐标和旋转角的工作相比,本文方法取得了最好的精度.结论 本文提出的方法能够同时从视频中估计人体关节坐标和关节旋转角度,并且得到的人体关节坐标比现有方法具有更高的精度.

    人体姿态估计关节坐标关节旋转角注意力融合分步估计

    级联混合模型引导的实时柑橘采摘点定位方法

    梁云刘云帆林毅申姜伟鹏...
    3130-3143页
    查看更多>>摘要:目的 柑橘是我国最常见的水果之一,目前多以人工采摘为主,成本高、效率低等问题严重制约规模化生产,因此柑橘自动采摘成为近年的研究热点.但是,柑橘生长环境复杂、枝条形态各异、枝叶和果实互遮挡严重,如何精准实时地定位采摘点成为自动采摘的关键.通过构建级联混合网络模型,提出了一种通用且高效的柑橘采摘点自动精准定位方法.方法 构建团簇框生成模型和枝条稀疏实例分割模型,对两者进行级联混合实现实时柑橘采摘点定位.首先,构建柑橘果实检测网络,提出团簇框生成模型,该模型通过特征提取、果实检测框生成和DBSCAN(density-based spatial clustering of applications with noise)果实密度聚类,实时地生成图像内果实数目最多的团簇框坐标;然后,提出融合亮度先验的枝条稀疏分割模型,该模型以团簇框内的图像作为输入,有效降低背景枝条的干扰,通过融合亮度先验的稀疏实例激活图,实时地分割出与果实相连接枝条实例;最后基于分割结果搜索果实采摘点定位坐标.结果 经过长时间户外采集制作了柑橘果实检测数据集CFDD(citrus fruit detection dataset)和柑橘枝条分割数据集CBSD(citrus branch segmentation dataset).这两个数据集由成熟果实、未成熟果实组成,包含晴天、阴天、顺光和逆光等挑战,总共37 000幅图像.在该数据集上本文方法的采摘点定位精准度达到了 95.77%,帧率(frames per second,FPS)达到了 28.21帧/s.结论 本文方法在果实采摘点定位方面取得较好进展,能够快速且准确地获取柑橘采摘点,并且提供配套的机械臂采摘设备可供该采摘点定位算法的落地使用,为柑橘产业发展提供有力支持.

    采摘机器人采摘点定位方法团簇框生成器亮度先验枝条稀疏分割模型