基于高效深度学习的实时无监督视频目标分割算法研究

成华阳¹

扫码查看

作者信息

1. 电子科技大学
折叠

摘要

无监督视频目标分割是指在未给定任何参考输入信息的前提下，实现前景目标的准确分割，其在视频监控、视频编辑、自动驾驶等场景应用广泛。现有的前沿方法大多需要依靠复杂的深度学习网络结构或光流来提高分割准确性，这往往导致分割效率较低，不能做到实时分割。因此，如何在平衡分割准确性的同时降低模型计算量，以实现高效分割是一个很重要的研究问题。本文从前景目标运动和背景固定的特定运动场景出发，首先研究该场景下的高效分割问题，其次针对特定场景方法不能迁移到一般场景使用的问题，研究面向一般场景的高效分割问题，最后，对两个场景的算法进行了高效性应用测试。全文的工作如下：（1）针对运动场景下深度学习方法没有做轻量级设计导致分割效率相对低的问题，本文提出了基于单线性瓶颈和池化补偿的实时前景分割网络FSNet-LBPC。在计算量较大的特征提取部分，通过本文提出的单线性瓶颈算子进行轻量化设计降低计算量实现模型的高效性；并通过本文提出的池化补偿机制减少特征提取过程中因压缩特征图带来的信息损失以提高模型的分割准确性。模型在CDNet2014数据集上准确性综合指标为95.74%，较最先进的方法相差2.73%，在分辨率为320×240的视频上能够实现每秒151帧的分割速度。（2）针对一般场景下的深度学习方法结构复杂和依赖光流导致分割效率较低的问题，本文提出了基于时空相似性学习的实时无监督视频目标分割算法STSNet。在方法上，STSNet通过目标的外观信息实现分割，可以避免耗时的光流计算。在结构上，STSNet通过Transformer学习到的历史帧时空前背景特征和分割帧进行特征相似性学习得到当前帧的分割参考信息可以在保证分割准确性的同时实现每次分割只需提取当前帧特征，相比每次分割需要提取多帧特征的复杂结构方法和依托光流的方法，大幅度降低了计算量。模型在DAVIS16数据集上准确性综合指标为81.9%，较最先进的方法相差2.6%，在输入分辨率为473×473的视频上可以达到每秒52帧的分割速度。（3）以背景替换应用为例，设计并实现了一个初步的算法高效性测试系统，并对FSNet-LBPC和STSNet分别进行了高效性应用测试。测试结果表明，本文所提算法在背景替换应用中具有一定的高效性和准确性。

关键词

无监督视频目标分割/池化补偿/特征提取/深度学习

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

杨路

学位年度

2022

学位授予单位

电子科技大学

语种

中文

中图分类号

段落导航