首页|基于Transformer的人物交互关系检测

基于Transformer的人物交互关系检测

彭欢

基于Transformer的人物交互关系检测

彭欢1
扫码查看

作者信息

  • 1. 华中科技大学
  • 折叠

摘要

人物交互关系检测是重要的视觉理解任务之一,在安防与无人商超领域有着非常多的应用。在人物交互关系检测任务中,全局上下文特征是十分重要的,采用基于Transformer的方法来进行人物交互关系检测能有效聚集全局上下文特征。但是现有的基于检测Transformer的人物交互关系检测器存在一些缺陷,它们会将实例检测与交互关系理解这两个人物交互关系检测的子任务捆绑在一起完成,导致无法有效地理解一些复杂的容易让人混淆的交互关系;而且检测Transformer框架的结构复杂度较高,含有过多针对特定任务的归纳偏置和先验知识,不够简洁轻便。 针对现有的检测Transformer无法很好地理解复杂的人物交互关系的问题,论文利用注意力视野中实例级预测和交互关系级预测的聚焦区域不一致的特性,提出了基于检测Transformer的并行推理网络(ParallelReasoningNetwork,PR-Net)。该网络构建了两个分别针对实例级定位和交互关系级语义理解的并行预测器,前者通过感知实例的末端区域从而聚焦于实例级的定位。后者扩散视野到交互关系区域,从而更好地理解交互关系级语义。 针对现有的检测Transformer框架结构复杂度较高的问题,论文构建了基于视觉Transformer的人物交互关系检测网络HOiT,从而能够以最直接简单的输入输出形式和模型结构完成人物交互关系检测任务,并尽可能减少针对特定任务的归纳偏置。而基于视觉Transformer的人物交互关系检测器虽缓解了检测Transformer模型复杂度高的缺陷,但其性能不够强大。为此,论文在HOiT的基础上构建了人物交互关系检测器DeformableHOiT,提出了针对交互关系的注意力重构模块,并引入了针对多层次特征的高效解码器,进一步提升人物交互关系检测性能而不增加过多的计算开销。 综上所述,论文在现有的Transformer人物交互关系检测器的基础上分别设计了三种不同的人物交互关系检测模型,进一步提升了模型对人物交互关系的理解能力,并通过充分的实验证明了论文方法的有效性。

关键词

人物交互关系检测/目标检测/视觉Transformer

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

高常鑫

学位年度

2022

学位授予单位

华中科技大学

语种

中文

中图分类号

TP
段落导航相关论文