计算机技术与发展2023,Vol.33Issue(8) :23-29.DOI:10.3969/j.issn.1673-629X.2023.08.004

Conditional HOTR:基于Transformer的人物交互检测

Conditional Human-object Interaction Detection with Transformer

张诗凡 叶海波
计算机技术与发展2023,Vol.33Issue(8) :23-29.DOI:10.3969/j.issn.1673-629X.2023.08.004

Conditional HOTR:基于Transformer的人物交互检测

Conditional Human-object Interaction Detection with Transformer

张诗凡 1叶海波1
扫码查看

作者信息

  • 1. 南京航空航天大学 计算机科学与技术学院,江苏 南京 211106
  • 折叠

摘要

人物交互检测任务(HOI任务)旨在检测出图片中所有存在交互关系的人和物,最后得到<人,动作,物>这样形式的三元组.一般的方法包括两阶段和一阶段算法,最近一些工作提出的基于transformer的HOI检测方法使整个管道变得更加简单.对于已有的检测模型HOTR,旨在优化其内部transformer结构,使其更好地适应HOI检测任务.对于其中用于交互检测的交互解码器,根据其交互查询嵌入分别生成了人和物的参考点,并以此设计了交互点生成公式,然后利用交互点的信息设计了条件交互查询,将其作为位置嵌入与内容嵌入相加得到query,最后与key点乘进行注意力计算.这有助于transformer显式地定位与交互相关的区域,缩小搜索范围并缓解对内容嵌入的依赖.最终,在基准数据集V-COCO和HICO-DET上,Map分别提升了2.13 百分点和8.33 百分点,并且精度在V-COCO数据集上达到了目前最优.

关键词

人物交互检测/计算机视觉/Transformer/查询嵌入/交互点

Key words

human-object interaction detection/computer vision/transformer/query embedding/interaction point

引用本文复制引用

基金项目

国家自然科学基金青年基金(61702261)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量2
段落导航相关论文