多特征增强和数据再平衡的无偏场景图生成

张汝荟¹

扫码查看

作者信息

1. 重庆师范大学
折叠

摘要

场景图是一种可以清晰地表达对象及其之间关系的结构化表示。随着深度学习领域的快速发展，场景图生成方向的研究极大地促进了对视觉、自然语言等任务及其跨领域的理解，有效增强了对视觉场景的理解和推理能力。然而，在早期场景图生成模型预测出的关系中，常常会产生严重的偏颇，这是由于高度倾斜的长尾关系标注所造成的。长尾效应不仅在人工标注的数据集中存在，也存在于自然世界的关系中，所以只对人工标注的分布进行平衡无法从根本上解决该问题。无偏场景图生成旨在抑制长尾效应所造成的影响。然而，若为提高数据集中整体关系的召回率只将重点放于头部、中部关系，则会严重影响模型对尾部关系的判断；若只将模型重点放在尾部数据上，将会或多或少地影响整体关系召回率。本文针对无偏场景图中存在的上述问题进行研究，研究工作包括以下内容。（1）为了充分挖掘图片中的特征信息，设计了几何维度与语义维度增强模块。两个模块分别使用卷积神经网络，增强对几何特征与语义特征的提取，帮助模型对物体对之间关系进行预测。几何模块从相邻物体对之间的位置信息会相互影响的角度出发进行设计，可以提升数据集中整体关系的召回率；语义模块进一步处理嵌入词向量，可以增强语义信息的获取。（2）为了提高预测中部和尾部数据各自的召回率，分别针对中部数据和尾部数据设计了两个损失函数。通过对数据集中判断错误的中部或尾部关系进行惩罚，以提高预测的召回率。由于指标之间的冲突问题，这两个损失函数各有所长：针对尾部关系的损失函数更好地处理长尾分布问题；针对中部数据的损失函数反映在整体指标上的数据效果更佳。（3）为了改善公共数据集长尾分布严重失衡的问题，从训练集图片中对象对个数的角度出发设计出数据再平衡模块。该模块统计了训练集中每张图片中对象对个数，筛选出符合条件的训练集对模型进行训练，缓解数据集长尾效应。实验结果表明，上述模块对缓解数据集长尾效应有着一定的效果。并且上述设计独立于模型，可以添加在任意的基础模型及其改进模型上，具有一定的灵活性，对模型的进一步的创新与应用提供了便利。

关键词

无偏场景图生成/特征增强/卷积神经网络/损失函数/数据再平衡

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

杨有

学位年度

2023

学位授予单位

重庆师范大学

语种

中文

中图分类号

段落导航