首页|基于多模态特征融合和最优特征选择的钓鱼网站检测方法研究

基于多模态特征融合和最优特征选择的钓鱼网站检测方法研究

程康

基于多模态特征融合和最优特征选择的钓鱼网站检测方法研究

程康1
扫码查看

作者信息

  • 1. 安徽大学
  • 折叠

摘要

网络钓鱼攻击是当前互联网安全最常见最严重的威胁之一。网络钓鱼通过向用户发送伪装来自可信来源的链接,诱使用户访问虚假网站,从而绕开安全系统,达到窃取个人信息或发动网络攻击的目的,因此构建一个有效的钓鱼网站检测模型至关重要。 鉴于强大的数据分类能力,机器学习被广泛用于网络钓鱼的检测,其中基于文本特征的网络钓鱼检测方法是识别钓鱼攻击的主要技术之一,通过分析URL和网页源代码等文本信息提取出一系列特征以此来提高钓鱼网站检测的准确性。然而基于文本特征的检测方法也存在着局限性:一方面是提取有效的文本特征往往依赖于研究人员丰富的经验,另一方面随着钓鱼攻击技术的不断进步,攻击者使用图片代替文字等更加隐蔽的手段来躲避基于文本的检测方法。因此在基于文本的网络钓鱼检测的基础上,本文进一步研究能够利用网页图片内容的钓鱼攻击检测方法,以此在访问层面形成对钓鱼链接的全面有效阻隔,构建一个更加全面的钓鱼网站检测方法。本文提出了一种基于多模态特征融合的网络钓鱼检测模型MFPD。在该模型中,首先使用BERT模型和VIT模型分别处理文本和图像输入并进行特征融合,为了充分利用网站的所有信息引入了 URL和HTML特征辅助检测,同时本文提出了一种基于新定义的特征评估指标GI_vlaue和模拟退火算法的双向搜索特征选择方法,用于去除URL和HTML特征中的不相关特征和冗余特征,选择出最优特征加强检测效果。实验结果表明,本文提出的钓鱼网站检测模型获得了较好的效果,能够有效地提高检测效果,并且可以为钓鱼网站的检测提供一种解决思路。 本文的主要工作如下: (1)提出了一种基于GI_value索引值和模拟退火算法的双向搜索的两阶段最优特征选择方法。首先从数据集中提取了钓鱼网站的特征,但考虑到提取的特征中存在无用特征和冗余特征影响检测效果,于是首先使用基于基尼系数的特征有效性指标GI_value来衡量数据集中特征的重要性,去除无关特征和负特征,接着使用提出的基于模拟退火算法的双向特征搜索来去除特征集中的冗余特征,以此选择出最佳的网络钓鱼特征。 (2)提出了一种多模态特征融合的钓鱼网站检测模型,综合利用了网站的文本信息和图像信息,以网站的URL作为文本输入,网页的图片作为图像输入进行特征融合,同时使用最优特征选择方法提取最优特征辅助钓鱼网站检测,可以有效地检测钓鱼网站。

关键词

钓鱼网站检测/多模态特征融合/最优特征选择/GI-value索引值/模拟退火算法

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

朱二周

学位年度

2024

学位授予单位

安徽大学

语种

中文

中图分类号

TP
段落导航相关论文