一种新的seq2seq的可控图像字幕的生成方法

Novel generation method of controllable image caption based on seq2seq

王源顺 ¹段迅 ¹吴云¹

扫码查看

作者信息

1. 贵州大学计算机科学与技术学院,贵阳550025
折叠

摘要

针对当前的图像字幕方法只能够用一种黑盒的、从外部难以控制的架构描述图像的问题.创造性地将图像字幕问题转换为seq2seq问题,达到了可控生成图像字幕的效果.设计一个由图像区域构成的实体集合或实体序列作为控制信号,在实体块切换的块哨兵和带视觉哨兵的自适应注意力机制的指导下,将控制信号有规律地输入到双层的长短期记忆网络(long short term memory,LSTM)中,以可控的方式指导模型生成对应的图像字幕;此外,baseline使用cross entropy loss来早停模型的训练,引入强化学习思想来解决训练时的优化目标与评估算法效果时指标不一致的问题,进一步优化模型效果.实验表明:在MSCOCO及Flickr30k数据集上,提出的算法在生成可控图像字幕、字幕质量、多样性上达到了非常好的效果.

关键词

图像字幕/seq2seq/控制信号/哨兵机制/自适应注意力机制

引用本文复制引用

基金项目

国家自然科学基金资助项目(61662009)

出版年

2021

计算机应用研究

四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心

影响因子：0.93

ISSN：1001-3695

被引量4

参考文献量6

段落导航