摘要
针对在相对密集场景下检测不佳的普遍现象,提出了基于人体姿态信息输入的模块化神经网络,通过构建绝对姿态特征和相对空间姿态特征来促进人与物体交互关系的检测.该算法主要包含两个分支:a)通过全连接层网络来独立处理每个人体关节点相对于物体的空间姿态特征;b)通过全连接图神经网络来更新每个关节点的绝对姿态特征.最后通过一个行为分类网络基于融合后的特征来进行交互关系的推断.该模块网络结合先进的检测模型VS-GATs在数据集V-COCO和HICO-DET上取得了显著的提升效果:在V-COCO上,比VS-GATs的检测结果提升2 mAP(约4%);在更有挑战性的HICO-DET上,比VS-GATs的检测结果提升0.98 mAP(约4.6%).实验表明了所构建特征的有效性以及设计的网络的优越性.