摘要
随着信息科技的快速发展,互联网已经深入到人们日常生活的方方面面,网络安全问题也日益凸显。跨站脚本攻击是一种常见的Web攻击手段,攻击者通过在网页链接和Web页面注入恶意脚本盗取用户信息,从而对网络安全构成威胁。 传统的XSS攻击检测方法在词嵌入阶段未能很好地捕捉词与词之间的依赖关系,在特征提取阶大多采用单一特征表示方法,使得提取的特征表征能力存在欠缺,从而影响检测效果。针对上述问题本文提出一种基于多模型融合的跨站脚本攻击检测方法,通过结合各个模型的优势,使得模型表征更全面,再通过大量数据自主学习更深层的XSS攻击特征与依赖关系,从而提升检测准确率与泛化能力。本文的主要研究内容如下: 1.本文提出将ALBERT模型应用于跨站脚本攻击检测的词嵌入阶段。针对XSS攻击的特性,使用ALBERT模型生成词向量,它通过双向的Transformer机制,可以在词嵌入阶段捕捉更多数据中的依赖关系,同时它的动态掩码与顺序预测任务能够提取出潜在的XSS攻击特征,从而提升模型在词向量生成阶段的表征能力。 2.本文提出了基于LN-BiLSTM-DPCNN特征融合的跨站脚本攻击特征提取方法。针对跨站脚本攻击具有局部关键词和上下文依赖的特点,在特征提取层使用双向长短期记忆网络(BiLSTM)和深度金字塔卷积神经网络(DPCNN)并行提取数据特征信息,并对其进行改进。BiLSTM能够充分从数据提取更深层次上下文依赖特征,在其双向的神经网络单元中引入层归一化(LN)机制,减轻因网络层数加深而带来梯度消失或梯度爆炸的问题;利用结合Mish激活函数的DPCNN,逐层卷积可以更有效地提取局部特征信息,其中Mish激活函数具有更平滑的性质,有助于在训练过程中保持良好的梯度传播。将并行提取结果进行融合,使得提取的XSS特征更加全面,以提升模型的准确率与泛化能力。最后使用全连接层与Softmax分类器得出检测结果。 3.本文通过实验评估了多模型融合的检测模型(ALBERT-LN-BiLSTM-DPCNN,ALBD)的检测效果和泛化能力,并在此基础上搭建检测系统。实验分析过程中,在CSICamp;CIC-IDS数据集的基础上使用爬虫技术收集数据集构成XSSpayloads数据集,并对两个数据集分别进行预处理。通过对比实验和消融实验对模型进行深入分析,结果表明,本文提出的检测方法相较于其他方法在准确率、F1值上均有提高,并通过对不同数据集的实验验证了ALBD融合模型的泛化能力。最后本文在提出多模型融合检测方法的基础上设计并实现了跨站脚本攻击检测系统。