计算机研究与发展2023,Vol.60Issue(11) :2611-2623.DOI:10.7544/issn1000-1239.202220019

一种面向指代短语理解的关系聚合网络

Relationship Aggregation Network for Referring Expression Comprehension

郭文雅 张莹 刘胜哲 杨巨峰 袁晓洁
计算机研究与发展2023,Vol.60Issue(11) :2611-2623.DOI:10.7544/issn1000-1239.202220019

一种面向指代短语理解的关系聚合网络

Relationship Aggregation Network for Referring Expression Comprehension

郭文雅 1张莹 1刘胜哲 1杨巨峰 1袁晓洁1
扫码查看

作者信息

  • 1. 南开大学计算机学院 天津 300350
  • 折叠

摘要

指代短语理解(referring expression comprehension,REC)任务的目的是定位输入短语所指代的图像区域,其中最主要的挑战之一是在图像中建立和定位由输入短语描述的物体之间的关系.现有的主流方法之一是根据物体本身的特性以及与其他物体的关系对当前物体进行打分,将得分最高的物体作为预测的被指代区域.然而,这类方法往往只考虑物体与其周围环境之间的关系,而忽略了输入短语中所描述的周围环境之间的交互关系,这大大影响了对物体间关系的建模.为了解决这一问题,提出了关系聚合网络(relationship aggregation network,RAN)来构建物体之间的关系,进而预测输入短语所指代的内容.具体来说,利用图注意力网络建模图像物体之间完备的关系;然后利用跨模态注意力方法选择与输入短语最相关的关系进行聚合;最后,计算目标区域与输入短语之间的匹配分数.除此之外,对指代短语理解中的擦除方法进行了改进,通过自适应扩充擦除范围的方式促使模型利用更多的线索来定位正确的区域.在3个广泛使用的基准数据集上进行了大量的实验,结果证明了所提出方法的优越性.

关键词

指代短语理解/注意力机制/图注意模型/模块化网络/擦除策略

Key words

referring expression comprehension/attention mechanism/graph attention network/modular network/erasing strategy

引用本文复制引用

基金项目

国家自然科学基金联合基金(U1903128)

出版年

2023
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量3
段落导航相关论文