计算机技术与发展2023,Vol.33Issue(4) :9-17.DOI:10.3969/j.issn.1673-629X.2023.04.002

图像描述技术方法研究

Research of Image Captioning Methods

陈耀传 奚雪峰 崔志明 盛胜利
计算机技术与发展2023,Vol.33Issue(4) :9-17.DOI:10.3969/j.issn.1673-629X.2023.04.002

图像描述技术方法研究

Research of Image Captioning Methods

陈耀传 1奚雪峰 1崔志明 1盛胜利1
扫码查看

作者信息

  • 1. 苏州科技大学 电子与信息工程学院,江苏 苏州 215000;苏州市虚拟现实智能交互及应用重点实验室,江苏 苏州 215000
  • 折叠

摘要

图像描述是人工智能领域中的多模态研究任务,融合了计算机视觉技术与自然语言处理技术,在人机交互和智能家居等领域具有广泛的应用.然而图像与文本之间存在较大的语义鸿沟,生成语义丰富的图像描述是一项具有挑战性的任务.文章旨在对图像描述技术进行总结研究,首先,文章简要地概述了图像描述任务的定义和发展历程.其次,文章分析了图像描述任务发展过程中出现的经典方法与模型,包括模板填充的方法、检索的方法和深度学习的方法;其中,基于深度学习的方法有:基于注意力机制的方法、基于对抗生成网络的方法和基于强化学习的方法,并对这些基于深度学习的图像描述方法在不同数据集上的实验结果进行了比较分析.另外,文章介绍了图像描述任务的相关数据集和评价指标.最后,文章展望了图像描述任务的未来工作.

关键词

图像描述/图像处理/文本生成/机器学习/多模态任务

引用本文复制引用

基金项目

国家自然科学基金(61876217)

国家自然科学基金(62176175)

江苏省"六大人才高峰"高层次人才项目(XYDXX-086)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量39
段落导航相关论文