基于小样本学习的恶意软件分类方法研究

崔海彬¹

扫码查看

作者信息

1. 中国民航大学
折叠

摘要

随着互联网用户的快速增长，以恶意软件为攻击手段的网络安全事件频频发生，给个人财产、社会稳定乃至国家安全带来了严重威胁。因此，恶意软件检测分类问题已成为研究人员关注的热点。恶意软件分类是指将具有相似特征的恶意软件样本进行分组，从而达到对未知恶意软件进行有效分类的过程。目前已有一些关于恶意软件分类的研究工作，但仍存在不足。基于机器学习的恶意软件分类方法过分依赖专家知识，模型的分类准确率高低取决于人工提取特征质量的好坏。基于深度学习的恶意软件分类方法可以实现目标的自动化检测，但需要大量标记样本训练模型，缺乏数据会引发严重的过拟合问题，从而导致分类准确率下降。为了能够实现在样本量不足的情况下仍然准确的识别恶意软件的类别，本文提出基于小样本学习的恶意软件分类方法，主要研究内容如下：（1）针对现有深度学习分类方法因训练数据量不足导致模型分类准确率低的问题，提出一种基于原型网络的PNAT模型。利用图像转换算法将恶意软件可执行文件转换为灰度图像；将残差连接和混合域注意力机制（ConvolutionalBlockAttentionModule，CBAM）引入模型的特征嵌入模块，从通道和空间两个维度上增强关键特征表达，使得到的特征更具分辨性；提出联合损失函数，在距离交叉熵损失的基础上加入原型损失，通过减小类内距离的方式进一步扩增类间距离，提升分类效果。实验结果表明，在每类恶意软件仅有5个样本的情况下，模型的分类准确率仍然可以达到83.12%。（2）针对原型网络中特征嵌入网络性能不足以及原型表示准确性不足的问题，进一步提出了基于高斯原型网络的DGPN-CA模型。首先在深度卷积神经网络DenseNet中嵌入坐标注意力机制（CoordinationAttention，CA），通过加深层数的方式提升特征嵌入网络性能，以提取恶意软件图像的深层特征。其次，计算高斯协方差矩阵作为样本的置信区间，通过嵌入向量加权置信区间的方式生成高斯原型点，提升原型表示的准确性。实验结果表明，DGPN-CA模型在5-way5-shot和5-way10-shot条件下的分类准确率分别达到85.36%和88.30%，实现了对PNAT模型分类性能的有效提升。

关键词

恶意软件分类方法/灰度图/小样本学习/原型网络/注意力机制/卷积神经网络

引用本文复制引用

授予学位

硕士

学科专业

电子信息硕士

导师

周景贤/张永生

学位年度

2023

学位授予单位

中国民航大学

语种

中文

中图分类号

段落导航