首页|一种基于文本层级结构的图像描述生成方法

一种基于文本层级结构的图像描述生成方法

扫码查看
本发明公开了一种基于文本层级结构的图像描述生成方法。本发明构建双层LSTM解码器,引入视觉和语言信息选择机制,利用图像全局特征和词嵌入,引导注意力机制在图像特征和语言信息之间进行有效选择,解码生成语义信息更准确的描述句子。针对传统语言模型在语义特征提取能力不足的缺陷,本发明在解码阶段引入FARIMA滤波器改进的有序长短时记忆网络,通过编码句子的层级结构来保留不同文本层级的语义信息,利用图像空间信息与内容语义对齐,提高了解码器在图像特征和语义特征对齐的跨模态表征能力,并增加了网络的长时依赖。根据本发明提取出的方法语义关系更加丰富,更加符合自然语言习惯。

CN202110810083.0

CN113569932B

发明专利

2021-07-18

2023-07-18

G06V10/774(2022.01)

湖北工业大学

靳华中、袁福祥、包志熙、黎林、姚颖

430068 湖北省武汉市洪山区南李路28号

中国(CN)