基于依存句法的可解释图像描述生成

Interpretable Image Caption Generation Based on Dependency Syntax

刘茂福 ¹毕健旗 ¹周冰颖 ¹胡慧君¹

扫码查看

作者信息

1. 武汉科技大学计算机科学与技术学院武汉 430065
折叠

摘要

已有图像描述生成模型虽可以检测与表示图像目标实体及其视觉关系,但没有从文本句法关系角度关注模型的可解释性.因而,提出基于依存句法三元组的可解释图像描述生成模型(interpretable image caption generation based on dependency syntax triplets modeling,IDSTM),以多任务学习的方式生成依存句法三元组序列和图像描述.IDSTM模型首先通过依存句法编码器从输入图像获得潜在的依存句法特征,并与依存句法三元组及文本词嵌入向量合并输入单层长短期记忆网络(long short-term memory,LSTM),生成依存句法三元组序列作为先验知识;接着,将依存句法特征输入到图像描述编码器中,提取视觉实体词特征;最后,采用硬限制和软限制 2种机制,将依存句法和关系特征融合到双层LSTM,从而生成图像描述.通过依存句法三元组序列生成任务,IDSTM在未显著降低生成的图像描述精确度的前提下,提高了其可解释性.还提出了评测依存句法三元组序列生成质量的评价指标B1-DS(BLEU-1-DS),B4-DS(BLEU-4-DS),M-DS(METEOR-DS),并在MSCOCO数据集上的实验验证了IDSTM的有效性和可解释性.

关键词

图像描述生成/依存句法/可解释性/多任务学习

Key words

image caption generation/dependency syntax/interpretability/multi-task learning

引用本文复制引用

基金项目

国家社科基金重大研究计划项目(11&ZD189)

贵州省科技计划项目(黔科合后补助[2020]3003)

武汉科技大学研究生创新基金(2022210)

出版年

2023

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

参考文献量3

段落导航