摘要
随着互联网技术的快速发展,Web应用已经成为人们日常生活中不可或缺的一部分,涵盖了电子商务、社交媒体、在线银行、医疗保健等众多领域。但是,随着Web应用的普及,网络安全威胁也越来越严重,需要Web攻击检测系统来防御网络攻击,保障企业和用户的财产和隐私信息不被泄露。Web攻击检测是监测和识别恶意攻击行为的过程,通过深入分析和分类恶意有效载荷可以更加精确和快速地识别攻击。本文依托于课题组的漏洞安全平台为背景,以有效载荷为研究对象,通过引入算法和建立模型对恶意的攻击载荷进行分类识别,并应用于实现的Web攻击检测系统原型中,具有一定的研究意义和应用价值。 本文的主要研究内容如下: (1)针对当前Web攻击检测中预处理方法构建的词典过大的问题,本研究提出了一种基于改进的TF-IDF算法的有效载荷预处理方法。该方法首先使用正则表达式从HTTP数据中提取有效载荷并进行分词,去除冗余符号和协议数据。然后,应用文本分类领域中的一种改进的TF-IDF算法,对有效载荷的单词频率进行加权,以凸显那些数量少但对分类影响大的攻击载荷,并通过该方法构建出词典,为后续的分类模型提供了输入来源。 (2)基于提出的预处理方法,针对单一模型无法充分提取有效载荷特征的问题,提出了一种基于深度学习的特征融合模型。该模型利用Text-CNN和BiLSTM-Attention分别提取有效载荷的局部单词特征和长文本的上下文特征,随后将这两种特征拼接融合,输入到全连接层中进行分类。通过在公开数据集上的实验证明,与本文提出的预处理方法结合后,模型的训练速度得到了显著提升。同时,与单一的深度学习模型和其他文献中的分类模型相比,本文提出的模型的分类精度更好,误报率更低。 (3)设计并实现了一个Web攻击检测系统。该系统采用前后端分离的架构,利用React和Flask技术实现。本文使用MySQL作为后端数据库来存储信息,并开发了登录、攻击总览和攻击管理等多个功能模块。此外,还为系统设计了可视化的界面,以更加直观地展示数据。 本文通过将上述的预处理方法和特征融合模型结合进行有效载荷的分类,达到提升Web攻击检测效果的目的,在公开数据集上的实验表明,模型的分类精确率可以达到99.21%,误报率仅有0.43%,可以很好的对恶意攻击进行识别,通过应用该模型开发的Web攻击检测系统可以帮助用户抵御网络攻击带来的危害。