自然视频包含的众多事件间存在着关联性和时序上的重叠特征,导致视频帧的描述语句缺乏逻辑性,且存在语义离散、主题模糊的问题.为此,采用混合 2D/3D卷积网络提取视频帧的全局特征,通过柯西分布分析视频事件的时序关联性,获取事件的相关帧,称为T-MCD.实验表明,T-MCD在执行Charades数据集的视频帧描述任务时,BLEU(bilingual evaluation understudy)4个指标均优于其他方法,且CIDEr(consensus-based image description evaluation)指标高达0.181,效果较好.