摘要
近年来,互联网多媒体共享平台的发展与移动智能设备的普及,使得数字视频成为人们获取信息的重要渠道。与此同时,用户对高质量视频需求日益迫切。作为体验衡量标准的视频质量评价研究也成为学术界与工业界共同关注的问题。 在真实自媒体服务场景中研究视频质量评价是具有极大挑战性的,其视觉特征间存在多维异构性与高阶交互关系。人类作为视频质量的感知者,研究人眼视觉系统(Human Vision System,HVS)特性并以此建模能够有效地提升相关的视频处理技术。因此,本文以视觉空时域联合感知特性作为切入点,通过模拟人类视觉感知中两者的交互过程,展开对真实自媒体场景下无参考视频质量评价方法的研究。其主要工作包括以下三个方面: 1.提出基于空时域联合视频质量评价模型。具体而言,本文引入了基于多尺度感知权重的特征提取模块来表征视频空域感知过程中的集成感知。针对视频的长依赖时域信息,引入了一种时序特征建模结构,即更深的门控循环单元(Deeper Gate Recurrent Unit,DGRU),以完全模仿视觉时序感知中的前馈和反馈递进过程。在此基础上,为加强多层次特征的帧间交互,尽可能地模仿空时域感知的非线性结构,进一步构造双流更深层次门控循环单元(Dual DGRU,DDGRU)结构来加深前馈与反馈的建模深度。最后,提出基于帧率的局部自适应平滑模块,用于模拟短依赖中的视觉时间记忆效应。在四个常用自媒体视频数据库上的实验结果表明了本算法的预测准确性与运行高效性,丰富消融实验的结果验证了各模块的有效性。 2.提出了基于高阶深层时空信息的质量评价模型。该部分为第一部分工作的深化。本模型将感知迭代机制以及高阶空域表征引入视频质量评价,采用二阶协方差聚合(Second Covariance Pooling,SCP)来进行高阶空域信息的提取,引入快速迭代GRU(Fast Iteration GRU,FI-GRU)结构进行深层时域信息建模。实验结果表明,其性能表现优于目前主流算法,量化实验与消融实验表明本算法提出的深层高阶信息能有效提升视频质量评价的准确性。 3.提出了基于膨胀因果卷积架构的特征记忆处理模型。本文首次引入叠层一维因果卷积进行视频时域建模。此外,将其改造为膨胀因果卷积模块,用于减少全局时域建模所需的叠层数与重复计算。而后通过长跳跃门控模块,构建门控卷积进行层特征的权重分配,加入跳层连接进行多时间频率整合。通过以上模块组合,该模型在训练上能够实现高度并行化,有效提升运行速度的同时取得优异的性能表现。此外,本文提出了基于能效比的多参数选择策略,实现深度学习算法在指定复杂度情况下的快速最优参数选择。