摘要
由于计算机和网络基础设施的飞速发展,图像、视频等多媒体信息广泛流传于网络上,人们对于视频内容理解的需求不断增加,基于深度学习方法的短视频描述任务得到了广泛研究。然而,传统短视频描述任务的单个视频时长通常在5秒至25秒之间,而实际场景中海量视频的时长通常在40秒甚至1分钟以上,因此,如何对长视频在较长的时间维度上发生的事件以及对象和事件之间的依赖关系进行准确理解和分析并在此基础上对其进行描述,是一个值得研究的课题。 长视频描述任务中的两个主要挑战在于:(1)长视频包含了比短视频更丰富的信息,长视频中出现的物体、场景都具有更多的不确定性。(2)现有的研究方法难以保证模型生成的语句语义正确且描述符合人的表述习惯,可读性较差。 针对以上挑战,本文进行了基于多模态深度学习的长视频描述方法的研究与实现。论文的主要工作内容如下: (1)本文对长视频描述技术进行研究,首先,针对目前没有符合长视频描述任务需求的数据集的现状,本文根据真实场景需求设计并实现了长视频描述数据集构建的一整套处理方法,并根据该方法构建了中英文长视频描述数据集Focus,该数据集共包含10920个长视频片段,每个片段都分别附有视频、音频和文本文件。 (2)本文在Focus数据集上提出了基于BERT模型和文本信息模态的长视频描述模型(Bert-basedLongVideotoText,BLVT),该模型按照以长视频中包含的丰富的文本信息为主,视觉信息为辅的思想,对长视频中的长文本信息进行特征提取;并提出特征重构层对提取到的特征进一步计算,得到融合上下文信息的文档级别的特征。在Focus数据集上的实验结果表明长视频中的文本信息对于长视频描述起到了重要的作用,经过特征重构后的文本特征能够取得更好的长视频描述效果。 (3)在上述长视频描述模型的基础上,本文进一步研究视觉信息的获取方法,从视频类别标签、视频目标检测标签、视频关键人物检测标签三个方面分别获取到能够代表长视频的整体或局部特征的视觉标签。此外,本文使用了两种方法将视觉标签和文本内容进行融合。在Focus数据集上的实验结果表明视觉信息和文本信息的融合能够有效提升长视频描述的效果,在中英文的长视频描述任务中均取得了较好的描述效果。 综上,本文对基于深度学习的长视频描述方法进行了研究,并在所构建的数据集上成功应用,对长视频描述的研究任务提供了一种参考。