首页|提取全局语义信息的场景图生成算法

提取全局语义信息的场景图生成算法

扫码查看
目的 场景图能够简洁且结构化地描述图像.现有场景图生成方法重点关注图像的视觉特征,忽视了数据集中丰富的语义信息.同时,受到数据集长尾分布的影响,大多数方法不能很好地对出现概率较小的三元组进行推理,而是趋于得到高频三元组.另外,现有大多数方法都采用相同的网络结构来推理目标和关系类别,不具有针对性.为了解决上述问题,本文提出一种提取全局语义信息的场景图生成算法.方法 网络由语义编码、特征编码、目标推断以及关系推理等4个模块组成.语义编码模块从图像区域描述中提取语义信息并计算全局统计知识,融合得到鲁棒的全局语义信息来辅助不常见三元组的推理.目标编码模块提取图像的视觉特征.目标推断和关系推理模块采用不同的特征融合方法,分别利用门控图神经网络和门控循环单元进行特征学习.在此基础上,在全局统计知识的辅助下进行目标类别和关系类别推理.最后利用解析器构造场景图,进而结构化地描述图像.结果 在公开的视觉基因组数据集上与其他10种方法进行比较,分别实现关系分类、场景图元素分类和场景图生成这3个任务,在限制和不限制每对目标只有一种关系的条件下,平均召回率分别达到了44.2%和55.3%.在可视化实验中,相比性能第2的方法,本文方法增强了不常见关系类别的推理能力,同时改善了目标类别与常见关系的推理能力.结论 本文算法能够提高不常见三元组的推理能力,同时对于常见的三元组也具有较好的推理能力,能够有效地生成场景图.
Global semantic information extraction based scene graph generation algorithm

段静雯、闵卫东、杨子元、张煜、陈鑫浩、杨升宝

展开 >

南昌大学信息工程学院,南昌 330031

南昌大学软件学院,南昌 330047

江西省智慧城市重点实验室,南昌 330047

场景图 全局语义信息 目标推断 关系推理 图像理解

国家自然科学基金国家自然科学基金江西省自然科学基金江西省智慧城市重点实验室项目

620761176176206120161ACB2000420192BCD40002

2022

中国图象图形学报
中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心
影响因子:1.111
ISSN:1006-8961
年,卷(期):2022.27(7)
  • 1
  • 1