首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    基于真实数据感知的模型功能窃取攻击

    李延铭李长升余佳奇袁野...
    2721-2732页
    查看更多>>摘要:目的 模型功能窃取攻击是人工智能安全领域的核心问题之一,目的是利用有限的与目标模型有关的信息训练出性能接近的克隆模型,从而实现模型的功能窃取.针对此类问题,一类经典的工作是基于生成模型的方法,这类方法利用生成器生成的图像作为查询数据,在同一查询数据下对两个模型预测结果的一致性进行约束,从而进行模型学习.然而此类方法生成器生成的数据常常是人眼不可辨识的图像,不含有任何语义信息,导致目标模型的输出缺乏有效指导性.针对上述问题,提出一种新的模型窃取攻击方法,实现对图像分类器的有效功能窃取.方法 借助真实的图像数据,利用生成对抗网络(generative adversarial net,GAN)使生成器生成的数据接近真实图像,加强目标模型输出的物理意义.同时,为了提高克隆模型的性能,基于对比学习的思想,提出一种新的损失函数进行网络优化学习.结果 在两个公开数据集CIFAR-10(Canadian Institute for Advanced Research-10)和SVHN(street view house numbers)的实验结果表明,本文方法能够取得良好的功能窃取效果.在CIFAR-10数据集上,相比目前较先进的方法,本文方法的窃取精度提高了 5%.同时,在相同的查询代价下,本文方法能够取得更好的窃取效果,有效降低了查询目标模型的成本.结论 本文提出的模型窃取攻击方法,从数据真实性的角度出发,有效提高了针对图像分类器的模型功能窃取攻击效果,在一定程度上降低了查询目标模型代价.

    模型功能窃取生成模型对比学习对抗攻击人工智能安全

    利用时空特征编码的单目标跟踪网络

    王蒙蒙杨小倩刘勇
    2733-2748页
    查看更多>>摘要:目的 随着深度神经网络的出现,视觉跟踪快速发展,视觉跟踪任务中的视频时空特性,尤其是时序外观一致性(temporal appearance consistency)具有巨大探索空间.本文提出一种新颖简单实用的跟踪算法——时间感知网络(temporal-aware network,TAN),从视频角度出发,对序列的时间特征和空间特征同时编码.方法 TAN内部嵌入了一个新的时间聚合模块(temporal aggregation module,TAM)用来交换和融合多个历史帧的信息,无需任何模型更新策略也能适应目标的外观变化,如形变、旋转等.为了构建简单实用的跟踪算法框架,设计了一种目标估计策略,通过检测目标的4个角点,由对角构成两组候选框,结合目标框选择策略确定最终目标位置,能够有效应对遮挡等困难.通过离线训练,在没有任何模型更新的情况下,本文提出的跟踪器TAN通过完全前向推理(fully feed-forward)实现跟踪.结果 在 OTB(online object tracking:a benchmark)50、OTB100、TrackingNet、LaSOT(a high-quality benchmark for large-scale single object tracking)和 UAV(a benchmark and simulator for UAV tracking)123 公开数据集上的效果达到了小网络模型的领先水平,并且同时保持高速处理速度(70帧/s).与多个目前先进的跟踪器对比,TAN在性能和速度上达到了很好的平衡,即使部分跟踪器使用了复杂的模板更新策略或在线更新机制,TAN仍表现出优越的性能.消融实验进一步验证了提出的各个模块的有效性.结论 本文提出的跟踪器完全离线训练,前向推理不需任何在线模型更新策略,能够适应目标的外观变化,相比其他轻量级的跟踪器,具有更优的性能.

    计算机视觉目标跟踪时空特征编码任意目标跟踪角点跟踪时序外观一致性高速跟踪

    结合时空一致性的FairMOT跟踪算法优化

    彭嘉淇王涛陈柯安林巍峣...
    2749-2760页
    查看更多>>摘要:目的 视频多目标跟踪(multiple object tracking,MOT)是计算机视觉中的一项重要任务,现有研究分别针对目标检测和目标关联部分进行改进,均忽视了多目标跟踪中的不一致问题.不一致问题主要包括3方面,即目标检测框中心与身份特征中心不一致、帧间目标响应不一致以及训练测试过程中相似度度量方式不一致.为了解决上述不一致问题,本文提出一种基于时空一致性的多目标跟踪方法,以提升跟踪的准确度.方法 从空间、时间以及特征维度对上述不一致性进行修正.对于目标检测框中心与身份特征中心不一致,针对每个目标检测框中心到特征中心之间的空间差异,在偏移后的位置上提取目标的ReID(re-identification)特征;对帧间响应不一致,使用空间相关计算相邻帧之间的运动偏移信息,基于该偏移信息对前一帧的目标响应进行变换后得到帧间一致性响应信息,然后对目标响应进行增强;对训练和测试过程中的相似度度量不一致,提出特征正交损失函数,在训练时考虑目标两两之间的相似关系.结果 在3个数据集上与现有方法进行比较.在MOT17、MOT20和Hieve数据集中,MOTA(multiple object tracking accuracy)值分别为 71.2%、60.2%和 36.1%,相比改进前的 FairMOT 算法分别提高了 1.6%、3.2%和1.1%.与大多数其他现有方法对比,本文方法的MT(mostly tracked)比例更高,ML(mostly lost)比例更低,跟踪的整体性能更好.同时,在MOT17数据集中进行对比实验验证融合算法的有效性,结果表明提出的方法显著改善了多目标跟踪中的不一致问题.结论 本文提出的一致性跟踪方法,使特征在时间、空间以及训练测试中达成了更好的一致性,使多目标跟踪结果更加准确.

    多目标跟踪(MOT)一致性特征提取位置偏移特征正交损失帧间增强

    融合知识表征的多模态Transformer场景文本视觉问答

    余宙俞俊朱俊杰匡振中...
    2761-2774页
    查看更多>>摘要:目的 现有视觉问答方法通常只关注图像中的视觉物体,忽略了对图像中关键文本内容的理解,从而限制了图像内容理解的深度和精度.鉴于图像中隐含的文本信息对理解图像的重要性,学者提出了针对图像中场景文本理解的"场景文本视觉问答"任务以量化模型对场景文字的理解能力,并构建相应的基准评测数据集TextVQA(text visual question answering)和 ST-VQA(scene text visual question answering).本文聚焦场景文本视觉问答任务,针对现有基于自注意力模型的方法存在过拟合风险导致的性能瓶颈问题,提出一种融合知识表征的多模态Trans-former 的场景文本视觉问答方法,有效提升了模型的稳健性和准确性.方法 对现有基线模型M4C(multimodal multi-copy mesh)进行改进,针对视觉对象间的"空间关联"和文本单词间的"语义关联"这两种互补的先验知识进行建模,并在此基础上设计了一种通用的知识表征增强注意力模块以实现对两种关系的统一编码表达,得到知识表征增强的 KR-M4C(knowledge-representation-enhanced M4C)方法.结果 在 TextVQA 和 ST-VQA 两个场景文本视觉问答基准评测集上,将本文KR-M4C方法与最新方法进行比较.本文方法在TextVQA数据集中,相比于对比方法中最好的结果,在不增加额外训练数据的情况下,测试集准确率提升2.4%,在增加ST-VQA数据集作为训练数据的情况下,测试集准确率提升1.1%;在ST-VQA数据集中,相比于对比方法中最好的结果,测试集的平均归一化Levenshtein相似度提升5%.同时,在TextVQA数据集中进行对比实验以验证两种先验知识的有效性,结果表明提出的KR-M4C模型提高了预测答案的准确率.结论 本文提出的KR-M4C方法的性能在TextVQA和ST-VQA两个场景文本视觉问答基准评测集上均有显著提升,获得了在该任务上的最好结果.

    场景文本视觉问答知识表征注意力机制Transformer多模态融合

    结合多层级解码器和动态融合机制的图像描述

    姜文晖占锟程一波夏雪...
    2775-2787页
    查看更多>>摘要:目的 注意力机制是图像描述模型的常用方法,特点是自动关注图像的不同区域以动态生成描述图像的文本序列,但普遍存在不聚焦问题,即生成描述单词时,有时关注物体不重要区域,有时关注物体上下文,有时忽略图像重要目标,导致描述文本不够准确.针对上述问题,提出一种结合多层级解码器和动态融合机制的图像描述模型,以提高图像描述的准确性.方法 对Transformer的结构进行扩展,整体模型由图像特征编码、多层级文本解码和自适应融合等3个模块构成.通过设计多层级文本解码结构,不断精化预测的文本信息,为注意力机制的聚焦提供可靠反馈,从而不断修正注意力机制以生成更加准确的图像描述.同时,设计文本融合模块,自适应地融合由粗到精的图像描述,使低层级解码器的输出直接参与文本预测,不仅可以缓解训练过程产生的梯度消失现象,同时保证输出的文本描述细节信息丰富且语法多样.结果 在MS COCO(Microsoft common objects in context)和Flickr30K两个数据集上使用不同评估方法对模型进行验证,并与具有代表性的12种方法进行对比实验.结果 表明,本文模型性能优于其他对比方法.其中,在MS COCO数据集中,相比于对比方法中性能最好的模型,BLEU-1(bilingual evaluation understudy)值提高了 0.5,CIDEr(consensus-based image description evaluation)指标提高了 1.0;在Flickr30K数据集中,相比于对比方法中性能最好的模型,BLEU-1值提高了 0.1,CIDEr指标提高了 0.6;同时,消融实验分别验证了级联结构和自适应模型的有效性.定性分析也表明本文方法能够生成更加准确的图像描述.结论 本文方法在多种数据集的多项评价指标上取得最优性能,能够有效提高文本序列生成的准确性,最终形成对图像内容的准确描述.

    图像描述注意力机制Transformer多层级解码动态融合门机制

    面向非受控场景的人脸图像正面化重建

    辛经纬魏子凯王楠楠李洁...
    2788-2800页
    查看更多>>摘要:目的 人脸正面化重建是当前视觉领域的热点问题.现有方法对于模型的训练数据具有较高的需求,如精确的输入输出图像配准、完备的人脸先验信息等.但该类数据采集成本较高,可应用的数据集规模较小,直接将现有方法应用于真实的非受控场景中往往难以取得理想表现.针对上述问题,提出了一种无图像配准和先验信息依赖的任意视角人脸图像正面化重建方法.方法 首先提出了一种具有双输入路径的人脸编码网络,分别用于学习输入人脸的视觉表征信息以及人脸的语义表征信息,两者联合构造出更加完备的人脸表征模型.随后建立了一种多类别表征融合的解码网络,通过以视觉表征为基础、以语义表征为引导的方式对两种表征信息进行融合,融合后的信息经过图像解码即可得到最终的正面化人脸图像重建结果.结果 首先在Multi-PIE(multi-pose,illumina-tion and expression)数据集上与8种较先进方法进行了性能评估.定量和定性的实验结果表明,所提方法在客观指标以及视觉质量方面均优于对比方法.此外,相较于当前性能先进的基于光流的特征翘曲模型(flow-based feature warping model,FFWM)方法,本文方法能够节省79%的参数量和42%的计算操作数.进一步基于CASIA-WebFace(Institute of Automation,Chinese Academy of Sciences—WebFace)数据集对所提出方法在真实非受控场景中的表现进行了评估,识别精度超过现有方法10%以上.结论 本文提出的双层级表征集成推理网络,能够挖掘并联合人脸图像的底层视觉特征以及高层语义特征,充分利用图像自身信息,不仅以更低的计算复杂度取得了更优的视觉质量和身份识别精度,而且在非受控的场景下同样展现出了出色的泛化性能.

    人脸正面化重建任意姿态双编码路径视觉表征语义表征融合算法