基于场景差异过滤增强的动态场景语义理解

任志伟¹

扫码查看

作者信息

1. 曲阜师范大学
折叠

摘要

海量的视频和图片一方面为变化检测提供了丰富的数据基础，另一方面又受到人工检测效率低的限制，导致海量的数据不能得到及时的利用。当一个场景涉及物体变化的时候，这一场景中的信息就可以分为静态的不变信息和动态的变化信息，人们可以准确地区分变化的区域，同时找到相关变化物体并描述变化信息。场景变化描述任务旨在用自然语言描述图像之间的差异，能够代替人类完成变化检测并将变化信息通过自然语言传递给人类。现有的方法大多将此问题视为不存在视点改变等干扰因素的差异判断。然而，在现实中视点变化经常发生，对于一般场景变化描述模型而言，视点变化信息可能压倒物体变化信息导致变化描述的效果达不到预期。针对这一问题，在深度学习技术的基础上进行基于场景差异过滤增强的动态场景语义理解研究。视点变化造成的干扰从信息层面来说是由于视点变化特征信息压倒了物体变化特征信息，从变化区域层面来说是由于视点变化区域覆盖整个场景且不独立于物体变化区域。基于上述理论分别从增强主差异特征和区分相关变化区域两个方面进行算法研究。主要工作如下： 1.针对现有方法易受视点变化导致不能充分利用场景中物体变化特征的问题，提出了基于主差异增强的场景变化描述算法。该算法采用编码器-解码器架构，增加了主差异特征增强机制。其中，基于主差异特征增强机制的编码器增加主差异的权重，引入软注意力机制对场景图中变化物体的关注，达到区分主差异与干扰差异的目的。采用top-down结构句子解码器循环生成变化描述语句。在CLEVR-Change和Spot-the-Diff这两个数据集实验，较双重动态注意变化描述模型在BLEU4、METEOR和CIDEr指标上平均提升1.95、1.5和3.5，表明了提出算法在变化描述任务中具有良好效果。 2.针对主差异增强算法存在不能动态增强主差异的问题，提出了基于场景差异特征的“扫雷”算法，设计了基于“扫雷”算法的场景变化描述模型。嵌入“扫雷”算法的视觉编码器能够根据特征图的差异分布赋予不同位置的权重，实现了动态的主差异增强。在CLEVR-Change和Spot-the-Diff这两个数据集实验，较基于主差异增强的场景变化描述模型在BLEU4、ROUGE_L、METEOR、CIDEr和SPICE指标上平均提升0.75、1.5、1.55、5和0.85，表明“扫雷”算法能够更好地生成描述语句，同时具有更好地鲁棒性。 3.针对现有方法中不能充分区分变化区域和干扰变化区域的问题，提出了基于差异过滤增强的动态场景语义理解算法。该算法依然采用编码器-解码器结构，其中差异过滤增强结构编码器对相关变化特征和干扰变化特征进行差异量化和分离，分离后的相关变化量通过注意力机制实现对场景中变化物体的关注。在CLEVR-Change和Spot-the-Diff这两个数据集实验，较基于“扫雷”算法的场景变化描述模型在BLEU4、ROUGE_L、METEOR、CIDEr和SPICE指标上平均提升0.85、2.4、1.25、4.6和2.1，表明基于差异过滤增强的动态场景语义理解算法具有更好的描述效果。 4.针对在视角变化较小的情况下差异过滤增强结构编码器不能充分分离相关变化量和干扰变化量的问题，引入了场景变化偏移库用于进一步提升模型的性能。场景变化偏移库包含了场景图的随机中心旋转，使得视角变化具有较强的随机性。在CLEVR-Change数据集实验，经变化偏移库强化训练的模型在BLEU4、ROUGE_L、METEOR、CIDEr和SPICE指标上提升2.4、1.4、1.7、1.7和1，表明场景变化偏移库能有效提升模型性能。

关键词

场景变化描述/深度学习/差异特征增强/差异量化和分离/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程;通信与信息系统

导师

王玉德

学位年度

2022

学位授予单位

曲阜师范大学

语种

中文

中图分类号

段落导航