基于深度学习的图像篡改区域定位算法研究

钟文煜¹

扫码查看

作者信息

1. 华南理工大学
折叠

摘要

相比文字，数字图像更具有生动性和趣味性，体现出更强大表现力，逐渐成为互联网上获取信息的重要媒介之一。随着数字图像编辑软件的发展和普及，不具备专业图像处理知识的人也能够便捷地对图像的内容进行随意改动，使用的篡改手段也多种多样，给图像篡改区域定位任务带来了前所未有的挑战。目前，大部分传统的图像篡改区域定位算法利用统计学方法提取特征，很难反映图像丰富的语义信息，具有较大的局限性。同时，基于深度学习的图像篡改区域定位模型普遍存在预测结果精细度不足、训练难度大和计算资源消耗大等问题。此外，在实际应用场景中，篡改图像通常经过一种或多种后处理操作，导致模型定位性能并不理想。因此，本文对图像篡改区域定位技术进行了深入研究，主要研究工作如下： (1)针对传统篡改区域定位算法存在细节信息缺失问题，本文提出一种基于改进型高分辨率网络的篡改区域定位模型。该模型利用动态上下文机制提高特征学习能力，引入基于拉普拉斯算子的边缘监督分支对模型结构加以改善，鼓励预测结果和标签掩模图具有相近边缘梯度，在定位大尺度篡改区域场景下效果显著。 (2)考虑到篡改区域尺度具有多样性特点，本文提出了一种新颖的基于多尺度视觉Transformer的篡改区域定位模型。该模型将图像划分为不同粒度的非重叠块，通过视觉Transformer结构对图像块序列的相关性进行建模，使用纵横注意力机制提高模型对篡改痕迹的关注度。实验结果表明，所提出模型有效提高图像篡改区域定位的准确度。 (3)为了兼顾模型的准确度和计算效率，本文提出了一种双流的轻量级U型网络。精简研究内容(2)所提出框架，搭建轻量级网络，降低计算资源消耗。而且，考虑到篡改区域与真实区域噪声分布差异，使用SRM模型提取噪声流作为辅助分支，通过门控通道转换单元解决双流特征筛选问题，尽可能减少模型精度损失。 (4)基于以上所提出的三个模型，本文设计并实现了一个图像篡改区域定位系统，该系统主要提供模型训练和预测结果可视化功能，帮助用户轻松发现图像篡改区域。

关键词

数字图像/篡改区域定位/高分辨率神经网络/视觉Transformer/动态上下文机制/轻量级U型网络

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

陆璐/卢智星

学位年度

2022

学位授予单位

华南理工大学

语种

中文

中图分类号

段落导航