首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    面向上行流媒体的压缩感知视频流技术前沿

    刘浩黄荣袁浩东
    1545-1557页
    查看更多>>摘要:上行流媒体在军民融合领域展现出日益重要的新兴战略价值,压缩感知视频流技术体系在上行流媒体应用中具有前端功耗低、容错性好、适用信号广等独特优势,已成为当前可视通信研究的前沿与热点之一.本文从阐述上行流媒体的应用特征出发,从性能指标、并行分块计算成像、低复杂度视频编码、视频重构和语义质量评价等方面,分析了当前针对压缩感知视频流的基础理论与关键技术,对国内外相关的研究进展进行了探究与比较.面向上行流媒体的压缩感知视频流面临着观测效率难控、码流适配困难和重建质量较低等技术挑战.对压缩感知视频流的技术发展趋势进行展望,未来将通过前端与智能云端的分工协作,突破高效率的视频观测与语义质量导引视频重构等关键技术,进一步开拓压缩感知视频流在上行流媒体应用中的定量优势与演进途径.

    视频流观测效率码流适配语义质量视频重构综述

    耦合保持投影哈希跨模态检索

    闵康凌张国宾王磊李丹萍...
    1558-1567页
    查看更多>>摘要:目的 基于哈希的跨模态检索方法因其检索速度快、消耗存储空间小等优势受到了广泛关注.但是由于这类算法大都将不同模态数据直接映射至共同的汉明空间,因此难以克服不同模态数据的特征表示及特征维度的较大差异性,也很难在汉明空间中同时保持原有数据的结构信息.针对上述问题,本文提出了耦合保持投影哈希跨模态检索算法.方法 为了解决跨模态数据间的异构性,先将不同模态的数据投影至各自子空间来减少模态"鸿沟",并在子空间学习中引入图模型来保持数据间的结构一致性;为了构建不同模态之间的语义关联,再将子空间特征映射至汉明空间以得到一致的哈希码;最后引入类标约束来提升哈希码的判别性.结果 实验在3个数据集上与主流的方法进行了比较,在Wikipedia数据集中,相比于性能第2的算法,在任务图像检索文本(I to T)和任务文本检索图像(T to I)上的平均检索精度(mean average precision,mAP)值分别提升了 6%和3%左右;在MIR-Flickr数据集中,相比于性能第2的算法,优势分别为2%和5%左右;在Pascal Sentence数据集中,优势分别为10%和7%左右.结论 本文方法可适用于两个模态数据之间的相互检索任务,由于引入了耦合投影和图模型模块,有效提升了跨模态检索的精度.

    跨模态检索哈希结构保持图模型耦合投影子空间学习

    面向视觉搜索的空间局部敏感哈希方法

    黄小燕孙彬杨展源朱映映...
    1568-1582页
    查看更多>>摘要:目的 视觉检索需要准确、高效地从大型图像或者视频数据集中检索出最相关的视觉内容,但是由于数据集中图像数据量大、特征维度高的特点,现有方法很难同时保证快速的检索速度和较好的检索效果.方法 对于面向图像视频数据的高维数据视觉检索任务,提出加权语义局部敏感哈希算法(weighted semantic locality-sensitive hashing,WSLSH).该算法利用两层视觉词典对参考特征空间进行二次空间划分,在每个子空间里使用加权语义局部敏感哈希对特征进行精确索引.其次,设计动态变长哈希码,在保证检索性能的基础上减少哈希表数量.此外,针对局部敏感哈希(locality sensitive hashing,LSH)的随机不稳定性,在LSH函数中加入反映参考特征空间语义的统计性数据,设计了一个简单投影语义哈希函数以确保算法检索性能的稳定性.结果 在Holidays、Oxford5k和DataSetB数据集上的实验表明,WSLSH在DataSetB上取得最短平均检索时间0.034 25 s;在编码长度为64位的情况下,WSLSH算法在3个数据集上的平均精确度均值(mean average precision,mAP)分别提高了 1.2%~32.6%、1.7%~19.1%和2.6%~28.6%,与几种较新的无监督哈希方法相比有一定的优势.结论 通过进行二次空间划分、对参考特征的哈希索引次数进行加权、动态使用变长哈希码以及提出简单投影语义哈希函数来对LSH算法进行改进.由此提出的加权语义局部敏感哈希(WSLSH)算法相比现有工作有更快的检索速度,同时,在长编码的情况下,取得了更为优异的性能.

    特征空间划分局部敏感哈希(LSH)动态变长哈希码视觉搜索最近邻搜索

    融合视觉关系检测的电力场景自动危险预警

    高明左红群柏帆田清阳...
    1583-1593页
    查看更多>>摘要:目的 借助深度学习强大的识别与检测能力,辅助人工进行电力场景下的危险描述与作业预警是一种较为经济和高效的电力安全监管手段.然而,目前主流的以目标检测技术为基础的预警系统只能给出部分危险目标的信息,忽视了电力设备的单目危险关系和成对对象间潜在的二元危险关系.不同于以往的方法,为了拓展危险预警模块的识别能力与功能范畴,本文提出了一种在电力场景下基于视觉关系检测的自动危险预警描述生成方法.方法 对给定的待检测图像,通过目标检测模块得到图中对象的类别名称和限界框位置;分别对图像进行语义特征、视觉特征和空间位置特征的抽取,将融合后的总特征送入关系检测模块,输出单个对象的一元关系和成对对象间的关系三元组;根据检测出的对象类别和关系信息,进行危险预测并给出警示描述.结果 本文自主搜集了多场景下的电力生产作业图像并进行标注,同时进行大量消融实验.实验显示,结合了语义特征、空间特征和视觉特征的关系检测器在前5召回率Recall@5和前10召回率Recall@10上的精度分别达到86.80%和93.93%,比仅使用视觉特征的关系检测器的性能提高约15%.结论 本文提出的融合多模态特征输入的视觉关系检测网络能够较好地给出谓词关系的最佳匹配,并减少不合理的关系预测,且具有一定零样本学习(zero-shot learning)能力.相关可视化结果表明,整体系统能够较好地完成电力场景下的危险预警描述任务.

    危险预警目标检测视觉关系检测多模态特征融合多标签余量损失

    类别语义相似性监督的小样本图像识别

    徐鹏帮桑基韬路冬媛
    1594-1603页
    查看更多>>摘要:目的 现有的深度学习模型往往需要大规模的训练数据,而小样本分类旨在识别只有少量带标签样本的目标类别.作为目前小样本学习的主流方法,基于度量的元学习方法在训练阶段大多没有使用小样本目标类的样本,导致这些模型的特征表示不能很好地泛化到目标类.为了提高基于元学习的小样本图像识别方法的泛化能力,本文提出了基于类别语义相似性监督的小样本图像识别方法.方法 采用经典的词嵌入模型GloVe(global vectors for word representation)学习得到图像数据集每个类别英文名称的词嵌入向量,利用类别词嵌入向量之间的余弦距离表示类别语义相似度.通过把类别之间的语义相关性作为先验知识进行整合,在模型训练阶段引入类别之间的语义相似性度量作为额外的监督信息,训练一个更具类别样本特征约束能力和泛化能力的特征表示.结果 在miniImageNet和tieredImageNet两个小样本学习基准数据集上进行了大量实验,验证提出方法的有效性.结果显示在miniImageNet数据集5-way 1-shot和5-way 5-shot设置上,提出的方法相比原型网络(prototypical networks)分类准确率分别提高1.9%和0.32%;在tieredImageNet数据集5-way 1-shot设置上,分类准确率相比原型网络提高0.33%.结论 提出基于类别语义相似性监督的小样本图像识别模型,提高小样本学习方法的泛化能力,提高小样本图像识别的准确率.

    小样本学习图像识别特征表示类别语义相似性监督泛化能力

    局部双目视差回归的目标距离估计

    张羽丰李昱希赵明璧喻晓源...
    1604-1613页
    查看更多>>摘要:目的 双目视觉是目标距离估计问题的一个很好的解决方案.现有的双目目标距离估计方法存在估计精度较低或数据准备较繁琐的问题,为此需要一个可以兼顾精度和数据准备便利性的双目目标距离估计算法.方法 提出一个基于R-CNN(region convolutional neural network)结构的网络,该网络可以实现同时进行目标检测与目标距离估计.双目图像输入网络后,通过主干网络提取特征,通过双目候选框提取网络以同时得到左右图像中相同目标的包围框,将成对的目标框内的局部特征输入目标视差估计分支以估计目标的距离.为了同时得到左右图像中相同目标的包围框,使用双目候选框提取网络代替原有的候选框提取网络,并提出了双目包围框分支以同时进行双目包围框的回归;为了提升视差估计的精度,借鉴双目视差图估计网络的结构,提出了一个基于组相关和3维卷积的视差估计分支.结果 在 KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)数据集上进行验证实验,与同类算法比较,本文算法平均相对误差值约为3.2%,远小于基于双目视差图估计算法(11.3%),与基于3维目标检测的算法接近(约为3.9%).另外,提出的视差估计分支改进对精度有明显的提升效果,平均相对误差值从5.1%下降到3.2%.通过在另外采集并标注的行人监控数据集上进行类似实验,实验结果平均相对误差值约为4.6%,表明本文方法可以有效应用于监控场景.结论 提出的双目目标距离估计网络结合了目标检测与双目视差估计的优势,具有较高的精度.该网络可以有效运用于车载相机及监控场景,并有希望运用于其他安装有双目相机的场景.

    双目视觉目标距离估计视差估计深度神经网络3维卷积监控场景

    像素聚合和特征增强的任意形状场景文本检测

    师广琛巫义锐
    1614-1624页
    查看更多>>摘要:目的 获取场景图像中的文本信息对理解场景内容具有重要意义,而文本检测是文本识别、理解的基础.为了解决场景文本识别中文字定位不准确的问题,本文提出了一种高效的任意形状文本检测器:非局部像素聚合网络.方法 该方法使用特征金字塔增强模块和特征融合模块进行轻量级特征提取,保证了速度优势;同时引入非局部操作以增强骨干网络的特征提取能力,使其检测准确性得以提高.非局部操作是一种注意力机制,能捕捉到文本像素之间的内在关系.此外,本文设计了一种特征向量融合模块,用于融合不同尺度的特征图,使尺度多变的场景文本实例的特征表达得到增强.结果 本文方法在3个场景文本数据集上与其他方法进行了比较,在速度和准确度上均表现突出.在 ICDAR(International Conference on Document Analysis and Recognition)2015数据集上,本文方法比最优方法的F值提高了0.9%,检测速度达到了23.1帧/s;在CTW(Curve Text in the Wild)1500数据集上,本文方法比最优方法的F值提高了1.2%,检测速度达到了71.8 帧/s;在Total-Text数据集上,本文方法比最优方法的F值提高了1.3%,检测速度达到了34.3帧/s,远远超出其他方法.结论 本文方法兼顾了准确性和实时性,在准确度和速度上均达到较高水平.

    目标检测场景文本检测神经网络非局部模块像素聚合实时检测任意形状

    相位一致性指导的全参考全景图像质量评价

    夏雨蒙王永芳王闯
    1625-1636页
    查看更多>>摘要:目的 全景图像的质量评价和传输、处理过程并不是在同一个空间进行的,传统的评价算法无法准确地反映用户在观察球面场景时产生的真实感受,针对观察空间与处理空间不一致的问题,本文提出一种基于相位一致性的全参考全景图像质量评价模型.方法 将平面图像进行全景加权,使得平面上的特征能准确反映球面空间质量畸变.采用相位一致性互信息的相似度获取参考图像和失真图像的结构相似度.接着,利用相位一致性局部熵的相似度反映参考图像和失真图像的纹理相似度.将两部分相似度融合可得全景图像的客观质量分数.结果 实验在全景质量评价数据集OIQA(omnidirectional image quality assessment)上进行,在原始图像中引入4种不同类型的失真,将提出的算法与6种主流算法进行性能对比,比较了基于相位信息的一致性互信息和一致性局部熵,以及评价标准依据4项指标.实验结果表明,相比于现有的6种全景图像质量评估算法,该算法在PLCC(Pearson lin-ear correlation coefficient)和 SRCC(Spearman rank order correlation coefficient)指标上比 WS-SSIM(weighted-to-spheri-cally-uniform structural similarity)算法高出0.4左右,并且在 RMSE(root of mean square error)上低0.9左右,4项指标最优,能够获得更好的拟合效果.结论 本文算法解决了观察空间和映射空间不一致的问题,并且融合了基于人眼感知的多尺度互信息相似度和局部熵相似度,获得与人眼感知更为一致的客观分数,评价效果更为准确,更加符合人眼视觉特征.

    全景图像/视频质量评价人类视觉系统相位一致性结构相似度(SSIM)纹理相似度

    特征金字塔结构的时序行为识别网络

    何嘉宇雷军李国辉
    1637-1647页
    查看更多>>摘要:目的 时序行为识别是视频理解中最重要的任务之一,该任务需要对一段视频中的行为片段同时进行分类和回归,而视频中往往包含不同时间长度的行为片段,对持续时间较短的行为片段进行检测尤其困难.针对持续时间较短的行为片段检测问题,文中构建了 3维特征金字塔层次结构以增强网络检测不同持续时长的行为片段的能力,提出了一种提案网络后接分类器的两阶段新型网络.方法 网络以RGB连续帧作为输入,经过特征金字塔结构产生不同分辨率和抽象程度的特征图,这些不同级别的特征图主要在网络的后两个阶段发挥作用:1)在提案阶段结合锚方法,使得不同时间长度的锚段具有与之对应的不同大小的感受野,锚段的初次预测将更加准确;2)在感兴趣区域池化阶段,不同的提案片段映射给对应级别特征图进行预测,平衡了分类和回归对特征图抽象度和分辨率的需求.结果 在THUMOS Challenge 2014数据集上对模型进行测试,在与没有使用光流特征的其他典型方法进行比较时,本文模型在不同交并比阈值上超过了对比方法3%以上,按类别比较时,对持续时间较短的行为片段检测准确率则普遍得到提升.消融性实验中,在交并比阈值为0.5时,带特征金字塔结构的网络则超过使用普通特征提取网络的模型1.8%.结论 本文提出的基于3维特征金字塔特征提取结构的双阶段时序行为模型能有效提升对持续时间较短的行为片段的检测准确率.

    时序行为识别特征金字塔深度学习计算机视觉视频理解

    多模态多层次事件网络的谣言检测

    李莎张怀文钱胜胜方全...
    1648-1657页
    查看更多>>摘要:目的 自动检测谣言至关重要,目前已有多种谣言检测方法,但存在以下两点局限:1)只考虑文本内容,忽略了可用于判断谣言的辅助多模态信息;2)只关注时间序列模型捕捉谣言事件的时间特征,没有很好地研究事件的局部信息和全局信息.为了克服这些局限性,有效利用多模态帖子信息并联合多种编码策略构建每个新闻事件的表示,本文提出一种新颖的基于多模态多层次事件网络的社交媒体谣言检测方法.方法 通过一个多模态的帖子嵌入层,同时利用文本内容和视觉内容;将多模态的帖子嵌入向量送入多层次事件编码网络,联合使用多种编码策略,以由粗到细的方式描述事件特征.结果 在Twitter和Pheme数据集上的大量实验表明,本文提出的多模态多层次事件网络模型比现有的 SVM-TS(support vector machine—time structure)、CNN(convolutional neural net-work)、GRU(gated recurrent unit)、CallAtRumors 和 MKEMN(multimodal knowledge-aware event memory network)等方法在准确率上提升了4%以上.结论 本文提出的谣言检测模型,对每个事件的全局、时间和局部信息进行建模,提升了谣言检测的性能.

    多模态谣言检测社交媒体多层次编码策略事件网络