首页|结合多层级解码器和动态融合机制的图像描述

结合多层级解码器和动态融合机制的图像描述

扫码查看
目的 注意力机制是图像描述模型的常用方法,特点是自动关注图像的不同区域以动态生成描述图像的文本序列,但普遍存在不聚焦问题,即生成描述单词时,有时关注物体不重要区域,有时关注物体上下文,有时忽略图像重要目标,导致描述文本不够准确.针对上述问题,提出一种结合多层级解码器和动态融合机制的图像描述模型,以提高图像描述的准确性.方法 对Transformer的结构进行扩展,整体模型由图像特征编码、多层级文本解码和自适应融合等3个模块构成.通过设计多层级文本解码结构,不断精化预测的文本信息,为注意力机制的聚焦提供可靠反馈,从而不断修正注意力机制以生成更加准确的图像描述.同时,设计文本融合模块,自适应地融合由粗到精的图像描述,使低层级解码器的输出直接参与文本预测,不仅可以缓解训练过程产生的梯度消失现象,同时保证输出的文本描述细节信息丰富且语法多样.结果 在MS COCO(Microsoft common objects in context)和Flickr30K两个数据集上使用不同评估方法对模型进行验证,并与具有代表性的12种方法进行对比实验.结果 表明,本文模型性能优于其他对比方法.其中,在MS COCO数据集中,相比于对比方法中性能最好的模型,BLEU-1(bilingual evaluation understudy)值提高了 0.5,CIDEr(consensus-based image description evaluation)指标提高了 1.0;在Flickr30K数据集中,相比于对比方法中性能最好的模型,BLEU-1值提高了 0.1,CIDEr指标提高了 0.6;同时,消融实验分别验证了级联结构和自适应模型的有效性.定性分析也表明本文方法能够生成更加准确的图像描述.结论 本文方法在多种数据集的多项评价指标上取得最优性能,能够有效提高文本序列生成的准确性,最终形成对图像内容的准确描述.
The integrated mechanism of hierarchical decoders and dynamic fusion for image captioning

姜文晖、占锟、程一波、夏雪、方玉明

展开 >

江西财经大学信息管理学院,南昌 330032

图像描述 注意力机制 Transformer 多层级解码 动态融合 门机制

科技创新2030新一代人工智能重大项目国家自然科学基金国家自然科学基金江西省重点研发计划

2020AAA0109301621610136216202920203BBE53033

2022

中国图象图形学报
中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心
影响因子:1.111
ISSN:1006-8961
年,卷(期):2022.27(9)
  • 2
  • 3