计算机科学2021,Vol.48Issue(3) :71-78.DOI:10.11896/jsjkx.201100176

基于视觉和语言的跨媒体问答与推理研究综述

Survey of Cross-media Question Answering and Reasoning Based on Vision and Language

武阿明 姜品 韩亚洪
计算机科学2021,Vol.48Issue(3) :71-78.DOI:10.11896/jsjkx.201100176

基于视觉和语言的跨媒体问答与推理研究综述

Survey of Cross-media Question Answering and Reasoning Based on Vision and Language

武阿明 1姜品 1韩亚洪1
扫码查看

作者信息

  • 1. 天津大学智能与计算学部 天津 300350
  • 折叠

摘要

基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案.随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展.文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向.

关键词

跨媒体问答与推理/图像问答与推理/视频问答与推理/视觉常识问答与推理/多模态融合/注意力机制/预训练

引用本文复制引用

基金项目

国家自然科学基金"重点项目"(2020/01-2024/12)

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量2
参考文献量76
段落导航相关论文