摘要
随着多媒体技术和互联网的发展,视频拍摄和分享变得越来越容易。另一方面,视频也是机器视觉感知的输入数据。然而,拍摄时相机不可避免会出现抖动,以及物体运动等原因,导致所拍摄视频模糊,影响人们观看体验和机器识别准确度。视频去模糊是图像复原领域的研究热点之一,在日常生活、三维重建、SLAM、视觉跟踪等领域有重要的应用价值。 主流基于深度学习的视频去模糊方法包括现有基于卷积神经网络的方法,以及基于循环神经网络的方法。前者通常采用光流等方法对齐序列帧,计算代价昂贵。基于循环神经网络的视频去模糊方法在视频去模糊方面表现更佳,但仍存在较多局限性:1)单帧特征提取能力有限;2)难以应对相邻帧存在大量信息冗余问题,跨帧聚合能力有限;3)常用L2损失函数,该损失对异常值敏感,存在造成梯度爆炸的风险。 针对上述问题,本文提出了基于循环神经网络的改进视频去模糊效果的一系列策略和相应算法。具体研究内容包括: (1)提出基于残差密集通道注意力的循环神经网络。该网络结合残差密集块和通道注意力的优点,提取更具丰富表达能力的多层次特征,提高了网络的表达能力和效率。在视频去模糊3个公开数据集上的实验结果表明,所提出网络在几乎不增加计算成本的情况下,在定量和定性结果上均优于其他对比方法。 (2)提出基于时空特征增强融合的循环神经网络。构建时空特征增强融合模块,用于抑制相邻帧冗余信息并精确捕捉有用信息,然后加以特征融合。该网络能够较为充分挖掘相邻帧有用信息。在3个公开数据集上的定量和定性实验表明,该网络计算成本较低,去模糊效果优于其他对比方法。 (3)提出新的损失函数Charbonnier loss用于视频去模糊。该损失函数可以更好地应对异常值。实验证明,该损失在视频去模糊任务中表现优于L2损失。