基于面部时空特征的深度伪造视频检测研究

蒋志权¹

扫码查看

作者信息

1. 浙江师范大学
折叠

摘要

随着大数据和人工智能时代的到来，计算机视觉技术不断发展。近几年来，基于深度学习的伪造换脸技术开始在互联网兴起，这类技术能够将指定视频中的人脸替换成所需要的目标人物，再来生成目标人物做特定动作的伪造视频，达到以假乱真的目的。该技术在丰富人们娱乐生活的同时也带来了巨大的安全威胁。为了保护用户个人隐私，构造一个健康的网络环境，对深度伪造视频的检测技术应运而生。研究者们使用不同的技术提升对伪造视频的检测精准度，在开源的数据集中取得了很好的效果，但对于未知伪造方式生成的伪造视频，其泛化性能依旧有很大的提升空间。本研究从以下两个方面来构建一个致力于深度伪造视频检测上精准度更高、泛化性能更强的网络模型。一方面，本文的研究致力于融合相邻帧间的时序特征和图像特征两个方面来解决深度伪造视频检测的问题。在时序特征上，通过实验发现，伪造视频的连续帧间一些运动的区域（如嘴部、眼睛）光流场与真实视频存在不同，因此本文从连续输入的多帧图像中计算每个点的像素光流场变化值，转化为光流图片将其输入主干网络提取特征。同时，在图像特征上，本文使用自注意力机制，通过生成的注意力图计算出注意力响应最敏感的区域。由于在伪造视频生成过程中，篡改的区域往往是局部的、细节的，为了让注意力图注意到这些可能存在篡改的区域，研究在此对计算出的最敏感区域做一个数据擦除，随后将擦除后的图像与光流图一同输入到主干网络中。实验结果表明，本文构建的模型在相同篡改方式数据集的测试上取得了能与当下最好方法相当的效果，在跨数据集的测试上，该模型也取得了超越大多数模型的泛化性。另一方面，为了进一步提升模型的泛化性能，本文构建一个自监督对抗学习的图像生成模块。该模块从使用的视频数据集中提取连续的数据帧作为原始图像，随机选取其他图像作为参考将两张图片进行混合。混合过程中，通过控制两张图片的混合区域以及混合的比率，自监督地生成目标所需的伪造图像，将生成的图像与原始数据集一同输入分类网络中进行对抗训练，在生成欺骗性更高的伪造图像的同时让分类器学习到更多关键点位的特征。实验证明，本文的模型泛化性更强。

关键词

深度伪造视频检测/光流/特征融合/注意力机制/自监督学习

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

郑忠龙

学位年度

2023

学位授予单位

浙江师范大学

语种

中文

中图分类号

段落导航