首页|Android恶意软件检测中面向不平衡数据集的学习方法研究

Android恶意软件检测中面向不平衡数据集的学习方法研究

杜文萃

Android恶意软件检测中面向不平衡数据集的学习方法研究

杜文萃1
扫码查看

作者信息

  • 1. 重庆邮电大学
  • 折叠

摘要

随着智能终端设备的普及,全球移动应用市场规模持续扩大,Android应用程序的安全问题也日趋严峻。由于Android恶意软件检测中不同应用程序的数量和误分类代价差异较大,数据集不平衡问题已成为Android恶意软件检测中备受关注的关键问题。针对上述问题本文提出了 Android恶意软件检测中代价敏感的学习方法和面向不平衡数据集的采样方法。 针对数据集不平衡导致特征选择时丢失大量少数类敏感特征,模型误报率较高的问题,提出Android恶意软件检测中代价敏感学习方法。该方案基于类别不平衡比例和样本到决策边界的距离计算样本敏感权重,并将样本敏感权重应用于特征选择阶段和模型训练阶段。特征选择时将样本敏感权重嵌入逻辑回归算法以优化参数更新过程,避免特征选择时忽略少数类敏感特征。模型训练时将样本敏感权重嵌入分类算法以训练代价敏感检测模型,进一步优化模型。实验结果表明所提方案可以有效降低数据集不平衡的影响,选出高质量特征子集,提高模型性能。 针对数据集不平衡导致模型对恶意样本误报率较高,泛化能力不足的问题,提出Android恶意软件检测中面向不平衡数据集的采样方法。该方案提出基于样本空间分布的过采样算法和基于聚类算法的欠采样算法对原始数据集重采样,将不平衡数据集调整为平衡数据集。过采样时基于样本空间分布选择目标采样样本,并根据样本优先级生成新的恶意样本以避免产生噪声样本。欠采样时基于K-Means算法聚类良性样本并从不同聚类中随机抽取样本以保留样本多样性。最后根据采样后的多个平衡数据集训练并集成多个检测模型。实验结果表明所提方案可以从不平衡数据集中采样出适应原始分布的高质量的平衡数据集,有效降低不平衡数据集的影响,提高模型准确率。

关键词

安卓系统/恶意软件检测/不平衡数据集/代价敏感/机器学习/采样方法

引用本文复制引用

授予学位

硕士

学科专业

网络空间安全

导师

王练

学位年度

2023

学位授予单位

重庆邮电大学

语种

中文

中图分类号

TP
段落导航相关论文