摘要
图像描述算法是一种结合计算机视觉和自然语言处理的技术,使计算机能够从图像生成一段描述性文字。图像描述生成算法在视觉辅助、视频分析、智能客服、机器人导航等领域都有着广泛的应用。该算法的难点在于不仅要理解图像中的物体、场景和关系,还要考虑到语法、词汇、句子结构和上下文等多个方面。为解决当前的图像描述算法存在的忽略语言多样性的问题,本文将基于生成对抗网络对图像描述算法展开研究,针对图像描述算法领域较为突出的问题分别从生成对抗网络的生成器端和判别器端进行改进,本文的主要研究内容和贡献如下: 1.针对当前基于最大似然估计训练的图像描述算法存在忽略语言的多样性、暴露偏差等问题,本论文使用生成对抗网络构建图像描述算法,其中采用编解码框架构建生成器,判别器基于LSTM网络设计,交替训练生成器和判别器网络,逐渐提高网络生成多样准确描述的能力,同时本文融合了自适应注意力机制。为了解决由于训练和测试数据的分布不同而产生的暴露偏差问题,设计的模型采用强化学习方法进行训练。最后通过在BLEU、METEOR和CIDEr评估指标上的定量实验对比和定性实验分析,验证了改进的算法生成的描述更加多样且准确。 2.针对基于注意力机制的图像描述算法存在图像和描述之间语义未能对齐的问题,本文基于第三章算法提出了一种新的方法。该方法借鉴视觉问答领域共同注意力机制的思想,设计了共同注意力判别器,用于对生成的描述进行优化和润色。同时,引入先知注意力机制,使生成器更好地关注与当前时间步相关的图像局部区域。采用多个评价指标的融合奖励函数来引导训练。最后,通过在BLEU、METEOR和CIDEr评估指标上进行定量和定性实验分析,验证了改进的算法能够生成更加细腻和准确的描述表达。 3.最后,本文将改进的算法应用于一个基于Android端的图像描述生成系统,旨在为盲人群体提供更好的图像理解体验。该系统能够自行产生图像的文本表述,并且能够使用语音和可视式的接口与客户实现互动,同时还具备距离估计和图像描述的功能,经过多次测试,证明了其可靠性和实用性。