摘要
随着视频生产的急剧增加,对于视频理解技术及其应用落地的需求日益迫切。视频分类需要基于其可用的多模态数据识别视频中涉及的对象、动作或者事件,是视频理解的基础任务之一。目前视频分类的主要研究方法就是构建基于多模态特征融合的网络。因此,为了捕获多模态融合时异构数据之间的交互作用,本文以音视频模态融合的视频分类方法为主要研究内容,并将算法应用在实际的系统中,理论与实践相结合。主要研究贡献如下: 首先改进基于低秩的多模态融合方法LMF,计算融合过程中视频特征和音频特征的注意力权重,然后将其加权到多模态特征,从而得到具有模态注意力的帧级融合特征。同时结合基于注意力的特征聚类算法NextVLAD将帧级特征聚合成视频级特征,并使用压缩激励上下文门控单元抑制无用的信息,放大有价值的特征。通过多组实验表明该方法相比于简单的融合方法能够捕捉到不同模态间的交互作用,在大规模视频数据集Kinetics400的验证集上取得87.8%的准确率。 其次将视觉问答领域的多模态分解双线性池化方法MFB应用在帧级的多模态特征融合,在此基础上引入并行计算的自注意力机制,将其应用于输入模态之间以改善不同模态的交互作用。该方法在Kinetics400验证集上达到88.7%的准确率,与其他方法对比证明本文的方法均优于其他基于卷积神经网络的视频分类模型。 最后使用算法在数据集上训练的模型,设计了基于Flask和Bootstrap框架的短视频分类平台,实现了短视频类型标签生成的自动化流程。