基于深度学习的视频帧内编码块划分方法研究

冯傲林¹

扫码查看

作者信息

1. 中国科学技术大学
折叠

摘要

随着近年来多媒体技术的发展，高清、超高清视频的数据量呈指数级增长，数据的传输和存储都面临巨大的压力，视频编码技术面临更大的挑战。作为最新的两代国际编码标准，高效视频编码标准(High Efficiency Video Coding，HEVC/H.265)和多功能视频编码标准(Versatile Video Coding，VVC/H.266)，分别于2013年1月和2020年7月发布。HEVC和VVC相比于各自的前一代标准，分别实现了约50％和30％的编码性能提升。编码性能的提升伴随着编码复杂度的急剧增长。其中，块划分技术是标准编码器编码过程中耗时占比最高的技术，其通过递归遍历搜索的方式确定图像帧各编码树单元的划分结构。HEVC标准采用自适应四叉树划分结构，取代了前一代标准AVC采用的均匀块划分。VVC标准采用四叉树加多类型树(Quadtree plus Multi-Type Tree，QTMTT)划分结构，在四叉树划分的基础上增加了水平、竖直两个方向的二叉树和三叉树划分。若要使得HEVC和VVC标准可以应用于实际编码场景，加速块划分的过程以降低编码复杂度是一条必经之路。针对低复杂度的划分方法设计，本文总结了两个关键问题:一是简洁和完备的表征划分的数据形式;二是高效的划分预测方法。针对这两个关键问题，本文提出使用二维矩阵和三维矩阵来分别表达四叉树划分结构和QTMTT划分结构，分别命名为深度图和划分图，并且使用基于深度学习的方法来预测划分结构，完全或部分地替换编码器的划分搜索过程，实现编码加速的目标。 HEVC和VVC具备不同的划分结构和划分特点，本文的研究内容分为两部分，第一部分是针对HEVC的四叉树划分方法，第二部分是针对VVC的QTMTT划分方法。QTMTT划分结构包含了四叉树划分结构，因此第一部分的工作也是第二部分工作的基础，并且为第二部分工作验证了方法的可行性。本文的主要内容包括: 1.提出了基于深度图预测的HEVC划分方法。本文提出使用深度图来表示HEVC标准采用的四叉树划分结构。深度图是一个二维矩阵，其中的每个元素表示了对应位置的划分深度。此外，本文设计了一个卷积神经网络，以图像块的原始像素值为输入，预测其对应的深度图。该卷积神经网络包含的多尺度池化层以及训练使用的多尺度池化损失函数适应了深度图的固有属性。深度图预测可以确定编码树单元的完整四叉树划分结构，跳过编码器决策划分的递归遍历搜索过程。深度图预测的方法将一系列划分决策的分类问题转化为了一个提取纹理特性的回归问题，在标准测试序列上以较小的性能损失代价取得了显著的编码加速。 2.提出了基于划分图预测的VVC划分方法。VVC的划分结构远复杂于HEVC的划分结构，从形式上看，块划分结构变得更加不规则。从根本上看，从像素值到划分结构的映射变得更加复杂。针对形式上的问题，本文在深度图的基础上提出使用划分图来表示QTMTT结构，划分图是一个三维矩阵，通过不同类型的深度图和方向图构成了QTMTT结构的一个完备并且规则的表示，物理意义上反映了图像在不同尺度下的纹理特性。针对根本上的问题，本文设计了一个模拟编码器划分搜索过程的卷积神经网络来预测划分图，并且设计了一个自顶向下的后处理算法用以进一步提升网络输出的准确率并提取划分决策。划分图预测和后处理可以确定编码树单元部分或完整的QTMTT划分结构，实现可调的“编码加速—编码性能损失”权衡。

关键词

视频编码/块划分技术/深度学习/卷积神经网络

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

刘东

学位年度

2022

学位授予单位

中国科学技术大学

语种

中文

中图分类号

段落导航