面向多人场景的社交行为与关系理解方法研究

李嘉诚¹

扫码查看

作者信息

1. 天津大学
折叠

摘要

监控视频往往涉及到在多人场景中对于人类复杂的社交行为和人物关系进行理解和分析，这对监控安防等公共安全维护有重要的价值。然而，现有的交互行为分析与群体行为理解的研究与实际场景仍然存在差距。第一，对于人物交互动作识别问题，现有的研究主要集中在仅有两个交互主体的理想环境下，具有交互人员距离接近，视野站位显著等特点，这与真实监控视频的多人场景中交互人员位置不一定明显的现实不符。对于一些远距离无接触的交互动作，其交互者更易与周围人混淆，如何准确地在人群中检测出交互人员并识别交互动作对现有的人物交互动作识别方法提出了新的挑战。第二，现有群体行为理解任务，也主要面向密集程度较低的人群场景，场景人数往往在十人左右。当面对更大规模的密集人群场景，如何有效根据社交关系对人员分组是进行一系列人类群体活动分析的基础性任务。然而，面对大规模场景的密集人群复杂关系，人群关系及分组的费时费力标注又为此类研究带来了新的挑战。为解决上述挑战，本文分别从两方面展开研究。1）本文尝试对现有的交互行为进行扩展，提出了从多人场景中检测无接触交互人员并识别其交互动作类型的联合任务：交互人员的时空定位；交互人员的交互动作类型识别；个体交互人员动作识别。通过同时利用人物动作和轨迹特征，融合个体和群体的时空特征构建三个子任务共享的成对关系特征立方体，联合求解任务。2）面向大规模场景人的社交关系理解任务，为减少标注量，本文研究了基于自监督的大规模人群社交群组检测：通过交换部分人员位置并利用人物行为与周边人物之间应符合人类社交规则的先验还原被交换人员位置的自监督训练方式解决了社交关系编码网络的训练，进而提升方法在有限训练数据上的群组检测性能。本文在自建数据集和公开数据集上开展了充分的实验，验证了所提出方法显著优于现有方法。

关键词

多人场景/社交行为/关系理解/动作识别

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

王松

学位年度

2022

学位授予单位

天津大学

语种

中文

中图分类号

段落导航