面向图像智能应用的深度模型安全性研究

熊晖¹

扫码查看

作者信息

1. 浙江工业大学
折叠

摘要

随着人工智能技术发展，深度学习在各个领域迅速普及，并诞生了许多以深度神经网络为驱动核心的图像智能应用。例如云平台智能识别服务、智能医疗疾病诊断等，深度学习模型都表现出优异的性能。但同时，随着神经网络对于对抗样本脆弱性的发现，各种针对智能应用的对抗攻击也不断发展，攻击生成的对抗样本能完全修改模型的预测输出，引发难以估量的后果。因此，深度学习的安全性问题也越来越引起关注。为了提升图像智能应用的安全性，本文从三个层面展开研究：内部鲁棒性、应用存在漏洞和异常检测策略。首先研究对抗攻击的内部诱发机理，探究脆弱性的影响因素，为安全问题研究提供有效的理论参考。不同于传统的黑盒式可解释性研究，本文从神经元层面探究攻击过程中模型内部变化。进一步，本文针对智能应用广泛使用的插值运算所存在的漏洞，提出反插值攻击框架，基于反插值优化成功实现对插值输出的操控，进而改变模型预测输出。针对模型的防御能力，本文提出基于特征重分布的异常检测方法，有效识别对抗样本和正常样本，从而保护智能应用免受攻击，并用实验验证算法在医疗检测等数据集上的有效性。本文主要研究内容包括以下三部分：（1）针对目前对抗样本可解释性研究局限于模型外部整体的问题，本文提出对抗样本的“雪崩效应”。从神经元层面，解释对抗攻击过程中神经网络内部的变化机理，探究临界激活神经元和神经元敏感度存在的规模递增现象对于模型鲁棒性的影响。（2）针对商用图像识别框架的插值运算存在安全漏洞，本文提出反插值优化的攻击框架，通过优化实现插值输出的任意操控，从而修改智能应用的预测输出。同时实验验证了反插值攻击生成的对抗样本具有较好的攻击性能、迁移能力和较低的攻击成本。（3）为了有效保护智能应用，本文提出基于特征重分布的异常检测方法。将模型的嵌入特征解耦后投影到三个不同特性的特征通道，利用元分类器评估各通道特征的不平衡度实现对抗样本检测。最终在医疗诊断等数据集上进行实验，验证了方法的有效性。

关键词

深度学习/智能应用/对抗攻击/异常检测/预处理过程

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

陈晋音

学位年度

2021

学位授予单位

浙江工业大学

语种

中文

中图分类号

段落导航