首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    深度多模态融合服装风格检索

    苏卓柯司博王若梅周凡...
    857-871页
    查看更多>>摘要:目的 服装检索方法是计算机视觉与自然语言处理领域的研究热点,其包含基于内容与基于文本的两种查询模态.然而传统检索方法通常存在检索效率低的问题,且很少研究关注服装在风格上的相似性.为解决这些问题,本文提出深度多模态融合的服装风格检索方法.方法 提出分层深度哈希检索模型,基于预训练的残差网络ResNet(residual network)进行迁移学习,并把分类层改造成哈希编码层,利用哈希特征进行粗检索,再用图像深层特征进行细检索.设计文本分类语义检索模型,基于LSTM(long short-term memory)设计文本分类网络以提前分类缩小检索范围,再以基于doc2vec提取的文本嵌入语义特征进行检索.同时提出相似风格上下文检索模型,其参考单词相似性来衡量服装风格相似性.最后采用概率驱动的方法量化风格相似性,并以最大化该相似性的结果融合方法作为本文检索方法的最终反馈.结果 在Polyvore数据集上,与原始ResNet模型相比,分层深度哈希检索模型的top5平均检索精度提高11.6%,检索速度提高2.57s/次.与传统文本分类嵌入模型相比,本文分类语义检索模型的top5查准率提高29.96%,检索速度提高16.53s/次.结论 提出的深度多模态融合的服装风格检索方法获得检索精度与检索速度的提升,同时进行了相似风格服装的检索使结果更具有多样性.

    多模态服装检索哈希特征文本嵌入风格相似性深度哈希

    超像素条件随机场下的RGB-D视频显著性检测

    李贝杨铀刘琼
    872-882页
    查看更多>>摘要:目的 视觉显著性在众多视觉驱动的应用中具有重要作用,这些应用领域出现了从2维视觉到3维视觉的转换,从而基于RGB-D数据的显著性模型引起了广泛关注.与2维图像的显著性不同,RGB-D显著性包含了许多不同模态的线索.多模态线索之间存在互补和竞争关系,如何有效地利用和融合这些线索仍是一个挑战.传统的融合模型很难充分利用多模态线索之间的优势,因此研究了RGB-D显著性形成过程中多模态线索融合的问题.方法 提出了一种基于超像素下条件随机场的RGB-D显著性检测模型.提取不同模态的显著性线索,包括平面线索、深度线索和运动线索等.以超像素为单位建立条件随机场模型,联合多模态线索的影响和图像邻域显著值平滑约束,设计了一个全局能量函数作为模型的优化目标,刻画了多模态线索之间的相互作用机制.其中,多模态线索在能量函数中的权重因子由卷积神经网络学习得到.结果 实验在两个公开的RGB-D视频显著性数据集上与6种显著性检测方法进行了比较,所提模型在所有相关数据集和评价指标上都优于当前最先进的模型.相比于第2高的指标,所提模型的AUC(area under curve),sAUC(shuffled AUC),SIM(similarity),PCC(Pearson correlation coefficient)和NSS(normalized scanpath saliency)指标在IRCCyN数据集上分别提升了2.3%,2.3%,18.9%,21.6%和56.2%;在DML-iTrack-3D数据集上分别提升了2.0%,1.4%,29.1%,10.6%,23.3%.此外还进行了模型内部的比较,验证了所提融合方法优于其他传统融合方法.结论 本文提出的RGB-D显著性检测模型中的条件随机场和卷积神经网络充分利用了不同模态线索的优势,将它们有效融合,提升了显著性检测模型的性能,能在视觉驱动的应用领域发挥一定作用.

    RGB-D显著性显著性融合条件随机场(CRF)全局能量函数卷积神经网络(CNN)

    融入时序和速度信息的自适应更新目标跟踪

    尹宽李均利胡凯李丽...
    883-897页
    查看更多>>摘要:目的 针对目标跟踪算法在现实场景的遮挡、光照变化和尺度变化等问题,提出一种融入时序信息和速度信息的多特征融合自适应模型更新目标跟踪算法.方法 通过提取目标的分级深度特征和手工设计方向梯度直方图(histogram of oriented gradients,HOG)特征,以全深度特征组合和深层深度特征与手工设计特征组合的方式构造两个融合特征器,提高在复杂场景下跟踪的稳健性;对融合特征进行可信度计算,选择最可靠融合特征对当前帧目标进行跟踪;在跟踪质量不可靠时,对目标表征模型进行更新,加入时间上下文信息和当前鲁棒表征信息,通过多峰值判定和运动速度判定选择最优目标预测位置作为最终结果.结果 在OTB(object tracking benchmark) 2013和OTB2015数据库上进行大量测试,与其他7个算法相比,本文算法总体效果取得最优,且在不同复杂环境下也取得了优秀的跟踪效果,在OTB 13和OTB15数据库中,跟踪精度分别为89.3%和83.3%,成功率分别为87%和78.3%.结论 本文算法利用深度特征与手工设计特征进行融合,对跟踪结果进行多峰值分析和运动速度判定,跟踪结果不佳时自适应更新特征进行重跟踪.实验结果表明,本文算法可以有效处理光照变化、背景杂波和遮挡等复杂因素的干扰,有效提升了跟踪质量.

    目标跟踪分级深度特征时间上下文信息多峰值判定模型更新

    融合逆密度函数与关系形状卷积神经网络的点云分析

    邱云飞朱梦影
    898-909页
    查看更多>>摘要:目的 3D点云与以规则的密集网格表示的图像不同,不仅不规则且无序,而且由于输入输出大小和顺序差异,具有密度不均匀以及形状和缩放比例存在差异的特性.为此,提出一种对3D点云进行卷积的方法,将关系形状卷积神经网络(relation-shape convolution neural network,RSCNN)与逆密度函数相结合,并在卷积网络中增添反卷积层,实现了点云更精确的分类分割效果.方法 在关系形状卷积神经网络中,将卷积核视为由权重函数和逆密度函数组成的3D点局部坐标的非线性函数.对给定的点,权重函数通过多层感知器网络学习,逆密度函数通过核密度估计(kernel density estimation,KDE)学习,逆密度函数的引入对点云采样率不均匀的情况进行弥补.在点云分割任务中,引入由插值和关系形状卷积层两部分组成的反卷积层,将特征从子采样点云传播回原始分辨率.结果 在ModelNet40、ShapeNet、ScanNet数据集上进行分类、部分分割和语义场景分割实验,验证模型的分类分割性能.在分类实验中,与PointNet++相比,整体精度提升3.1%,在PointNet++将法线也作为输入的情况下,精度依然提升了1.9%;在部分分割实验中,类平均交并比(mean intersection over union,mIoU)比PointNet++在法线作为输入情况下高6.0%,实例mIoU比PointNet++高1.4%;在语义场景分割实验中,mIoU比PointNet++高13.7%.在ScanNet数据集上进行不同步长有无逆密度函数的对比实验,实验证明逆密度函数将分割精度提升0.8%左右,有效提升了模型性能.结论 融合逆密度函数的关系形状卷积神经网络可以有效获取点云数据中的局部和全局特征,并对点云采样不均匀的情况实现一定程度的补偿,实现更优的分类和分割效果.

    关系形状卷积神经网络(RSCNN)逆密度函数非均匀采样反卷积层点云的分类与分割

    可变半径Alpha Shapes提取机载LiDAR点云建筑物轮廓

    伍阳王丽妍胡春霞程亮...
    910-923页
    查看更多>>摘要:目的 机载激光雷达(light detection and ranging,LiDAR)能够快速获取建筑物表面的3维点云,为提取建筑物轮廓提供重要的数据支撑,但由于激光脚点的随机性和点云自身的离散性,常规固定半径Alpha Shapes(A-Shapes)算法难以兼顾轮廓提取的精细度和完整度,且在点数量较大情况下计算效率较低.因此,提出一种基于网格的可变半径Alpha Shapes方法用于提取机载LiDAR点云建筑物轮廓.方法 对3维点云进行投影降维,对投影后2维离散点的范围构建规则格网,接着根据网格内点云填充情况筛选出边界网格,计算边界网格的平滑度并加权不同的滚动圆半径,再以边界网格为中心生成3×3邻域网格检测窗口,利用滚动圆原理提取窗口内点集的边界点,迭代检测直到所有边界网格遍历完成,最后获取点云的完整轮廓.结果 在精度评价实验中,与固定半径A-Shapes方法和可变半径Alpha Shapes(variable radius Alpha Shapes,VA-Shapes)方法相比,若建筑物以直线特征为主且边缘点云参差不齐,则本文方法的提取效果不理想;若建筑物含有较多拐角特征,则本文方法的提取效果较好.在效率评价实验中,与A-Shapes方法、VA-Shapse方法以及包裹圆方法相比,若点云数据量较小,则4种方法的耗时差距不大;若数据量较大,则本文方法和包裹圆方法的耗时远小于固定半径A-Shapes方法.实验结果表明,本文提出的轮廓提取方法适用于多种形状的建筑物点云.从轮廓完整性、几何精度以及计算效率等几方面综合考虑,本文方法提取建筑物点云轮廓效果较好.结论 本文提出的基于网格的可变半径Alpha Shapes建筑物点云轮廓提取方法结合了网格划分和滚动圆检测的优点,能够有效提取机载LiDAR建筑物点云顶部轮廓,具有较高的提取效率和良好的鲁棒性,提取的轮廓精度较高.

    机载激光雷达(LiDAR)点云建筑物轮廓AlphaShapes算法网格

    3D遮挡模型引导的光场图像深度获取

    吴迪张旭东张骏范之国...
    924-938页
    查看更多>>摘要:目的 光场相机可以通过单次曝光同时从多个视角采样单个场景,在深度估计领域具有独特优势.消除遮挡的影响是光场深度估计的难点之一.现有方法基于2D场景模型检测各视角遮挡状态,但是遮挡取决于所采样场景的3D立体模型,仅利用2D模型无法精确检测,不精确的遮挡检测结果将降低后续深度估计精度.针对这一问题,提出了3D遮挡模型引导的光场图像深度获取方法.方法 向2D模型中的不同物体之间添加前后景关系和深度差信息,得到场景的立体模型,之后在立体模型中根据光线的传输路径推断所有视角的遮挡情况并记录在遮挡图(occlusion map)中.在遮挡图引导下,在遮挡和非遮挡区域分别使用不同成本量进行深度估计.在遮挡区域,通过遮挡图屏蔽被遮挡视角,基于剩余视角的成像一致性计算深度;在非遮挡区域,根据该区域深度连续特性设计了新型离焦网格匹配成本量,相比传统成本量,该成本量能够感知更广范围的色彩纹理,以此估计更平滑的深度图.为了进一步提升深度估计的精度,根据遮挡检测和深度估计的依赖关系设计了基于最大期望(exception maximization,EM)算法的联合优化框架,在该框架下,遮挡图和深度图通过互相引导的方式相继提升彼此精度.结果 实验结果表明,本文方法在大部分实验场景中,对于单遮挡、多遮挡和低对比度遮挡在遮挡检测和深度估计方面均能达到最优结果.均方误差(mean square error,MSE)对比次优结果平均降低约19.75%.结论 针对遮挡场景的深度估计,通过理论分析和实验验证,表明3D遮挡模型相比传统2D遮挡模型在遮挡检测方面具有一定优越性,本文方法更适用于复杂遮挡场景的深度估计.

    光场深度估计3D遮挡模型抗遮挡最大期望(EM)

    基于全正基的非均匀三次加权B样条

    姬佩佩张贵仓汪凯孟建军...
    939-951页
    查看更多>>摘要:目的 对B样条的改进方法大多从增加局部参数和在三角函数空间定义基两个角度出发,但仍存在缺陷,原因是通过模型的控制顶点对曲线进行编辑和处理,存在控制顶点给定时曲线较为固定的不足.为此,本文构造了一类基于全正基的非均匀三次加权λαβ-B样条基.方法 结合加权思想,首先证明三次有理基在相应空间上的全正性;其次对三次三角基和三次有理基同时进行扩展,得到新的λαβ-B样条基,新扩展基具有和经典B样条基相似的性质;最后对新扩展基进行线性组合,用得到的多项式构造非均匀三次加权λ αβ-B样条基,并研究了曲线的定义及性质.结果 实验结果表明,新曲线保留传统B样条曲线基本性质的同时,还具有局部调整性,可以改善只通过调整控制顶点改变曲线形状的不足.结论 构造的新λqβ-B样条曲线可以有效克服传统方法在改进时的不足,适合曲线设计.

    λαβ-Bemstein基加权λαβ-B样条非均匀全正性局部调整性质

    LBP特征分类的极化SAR图像机场跑道检测

    韩萍万义爽刘亚芳韩宾宾...
    952-960页
    查看更多>>摘要:目的 在极化合成孔径雷达(synthetic aperture radar,SAR)图像中常用直线检测进行机场跑道的识别,但是河流、道路等与机场跑道具有相似直线的地物容易对检测结果造成干扰,出现检测目标难定位、目标模糊、多虚警等问题.为此,本文设计了一种利用目标散射特性结合局部二值模式(local binary patterns,LBP)特征分类的极化SAR图像机场跑道区域检测方法,采用LBP特征对极化SAR图像进行有监督的分类来提取真实的机场区域.方法 首先利用异化散射功率对极化SAR图像进行阈值分割,然后通过形态学处理得到疑似机场跑道区域,同时构建机场跑道和非机场跑道两类训练样本,并提取、统计样本的LBP特征,形成直方图,得到特征向量训练支持向量机(support vector machine,SVM)二分类器,其中SVM二分类器采用了径向基函数(radial basis function,RBF)核函数;接着对疑似机场跑道区域构建LBP特征,送入SVM二分类器中分类,对机场跑道进行检测识别,最终得到真实的机场跑道区域.结果 利用UAVSAR (uninhabited aerial vehicle synthetic aperture radar)系统采集的7幅极化SAR图像数据进行实验检测,并选取基于几何特征辨识跑道的两种算法进行对比,3种方法均有效检测出了7幅场景中的真实跑道,但是本文方法在7幅数据中总的虚警和漏警个数均为1,而两种对比算法中的虚警个数分别为2和11、漏警个数分别为8和1.结论 本文方法不仅能有效检测出机场跑道区域,且检测效果更好,计算量较小,虚警和漏警率低,效率更高.

    极化合成孔径雷达(PolSAR)图像机场跑道检测局部二值模式(LBP)特征支持向量机(SVM)分类阈值分割