首页|引入语义匹配和语言评价的跨语言图像描述

引入语义匹配和语言评价的跨语言图像描述

扫码查看
目的 由于缺乏图像与目标语言域的成对数据,现有的跨语言描述方法都是基于轴(源)语言转化为目标语言,由于转化过程中的语义噪音干扰,生成的句子存在不够流畅以及与图像视觉内容关联弱等问题,为此,本文提出了一种引入语义匹配和语言评价的跨语言图像描述模型.方法 首先,选择基于编码器—解码器的图像描述基准网络框架.其次,为了兼顾图像及其轴语言所包含的语义知识,构建了一个源域语义匹配模块;为了学习目标语言域的语言习惯,还构建了一个目标语言域评价模块.基于上述两个模块,对图像描述模型进行语义匹配约束和语言指导:1)图像&轴语言域语义匹配模块通过将图像、轴语言描述以及目标语言描述映射到公共嵌入空间来衡量各自模态特征表示的语义一致性.2)目标语言域评价模块依据目标语言风格,对所生成的描述句子进行语言评分.结果 针对跨语言的英文图像描述任务,本文在MS COCO(Microsoft common objects in context)数据集上进行了测试.与性能较好的方法相比,本文方法在BLEU(bilingual evaluation understudy)-2、BLEU-3、BLEU-4和METEOR(metric for evaluation of translation with explicit ordering)等 4 个评价指标上的得分分别提升了 1.4%,1.0%,0.7%和 1.3%.针对跨语言的中文图像描述任务,本文在 AIC-ICC(image Chinese captioning from artificial intelligence challenge)数据集上进行了测试.与性能较好的方法相比,本文方法在BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR 和 CIDEr(consensus-based image description evaluation)等 6 个评价指标上的评分分别提升了 5.7%,2.0%,1.6%,1.3%,1.2%和3.4%.结论 本文模型中图像&轴语言域语义匹配模块引导模型学习了更丰富的语义知识,目标语言域评价模块约束模型生成更加流畅的句子,本文模型适用于跨语言图像描述生成任务.
Cross-lingual image captioning based on semantic matching and language evaluation

张静、郭丹、宋培培、李坤、汪萌

展开 >

合肥工业大学计算机与信息学院,合肥 230601

大数据知识工程教育部重点实验室(肥工业大学),合肥 230601

智能互联系统安徽省实验室(合肥工业大学),合肥 230601

跨语言 图像描述 强化学习 神经网络 轴语言

6202010600761876058JZ2020HGTB0020

2022

中国图象图形学报
中国科学院遥感应用研究所,中国图象图形学学会 ,北京应用物理与计算数学研究所

中国图象图形学报

CSTPCDCSCD北大核心
影响因子:1.111
ISSN:1006-8961
年,卷(期):2022.27(11)
  • 3