基于注意力机制的图像描述方法研究

高雪娇¹

扫码查看

作者信息

1. 兰州交通大学
折叠

摘要

图像描述任务是一种重要的现代智能图像应用技术，它利用精炼而又准确的自然语句对图像内容进行的概括性描述，非常广泛的被研究，融合了“计算机视觉（ComputerVision,CV）”和“自然语言处理（NaturalLanguageProcessing,NLP）”的人工智能领域。尤其对于视力缺陷人群在互联网上进行交流、儿童早期教育、智能人机交互以及机器人研究开发中有着非常大的应用前景。随着迅速进步和发展的深度学习，基于深度学习的编码器-解码器（Encoder-Decoder）框架在图像描述任务中取得了非常显著的成果。在Encoder阶段，该方法利用深度卷积神经网络（ConvolutionalNeuralNetwork,CNN）提取图像特征，在Decoder阶段，利用循环神经网络（RecurrentNeuralNetwork,RNN）生成图像文本描述，并在图像描述任务中取得了较好的成绩。但是现有方法中仍然会存在生成的图像文本描述语句与图像自身内容的相关匹配度不高，并且在复杂场景中降低了图像描述模型的准确率等问题。因此，针对以上问题，本论文展开探究，主要进行了如下内容的研究： (1)本论文探究神经图像描述（NeuralImageCaption,NIC）模型，在Encoder-Decoder框架的基础上，通过引用注意力机制对图像描述任务进行研究，并且从图像特征提取和语言生成两个部分进行处理。深入理解Vgg-19网络的模型结构，在Encoder阶段的图像特征提取上利用Vgg-19提取图像特征向量，在每个时刻应用注意力机制计算每个图像区域的权重，并且引用注意力机制网络优化Vgg-19提取到的图像特征向量，以此忽略掉一些不重要或者无关的图像信息，使得生成的图像文本描述语句具有更加流畅和丰富的内容。 (2)在Decoder阶段的语言模型中，探究使用长短期记忆网络（LongShortTermMemoryNetwork,LSTM）优化图像描述中的文本处理部分，通过使用LSTM中的门结构可以有效地改善语言生成模型中使用具有长期依赖、梯度消失或者爆炸问题的普通RNN模型，并且利用注意力机制过滤掉无关或者误导的注意力信息，解码时充分利用上下文信息生成对图像更为准确的描述语句。 (3)在MSCOCO数据集上进行实验，采用BLEU-1,BLEU-4,METEOR和CIDEr的评价指标对模型结果进行验证，并且和其他一些经典的图像描述模型得分进行比较。结果表明，在大多数评价指标上本文所提图像描述模型得到了有效的提升。

关键词

图像描述/注意力机制/卷积神经网络/长短期记忆网络

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

王海涌/俞向阳

学位年度

2021

学位授予单位

兰州交通大学

语种

中文

中图分类号

段落导航