摘要
为了实现准确的入侵检测效果,基于机器学习方法的网络入侵检测方法往往需要充足的、各种类型的流量数据。然而,由于原始流量数据中包含着大量隐私信息,终端节点(如工业互联网企业、智能家居住宅等)通常不愿意共享数据,而仅通过本地采集的有限历史流量进行训练,最终导致训练不充分、训练出的入侵检测模型准确性较差。为了避免原始数据泄露,近年来联邦学习框架得到了广泛关注。这类方法在训练过程中无需各终端共享原始数据,而是通过共享模型参数的方式,充分训练模型的同时也有效地保护隐私。目前已有少量基于联邦学习的网络人侵检测方法,但现有的方法假设各终端数据始终是静态的,并不符合实际网络环境,网络环境复杂的动态特性将为基于联邦学习的入侵检测带来重要挑战。 网络环境的动态变化会导致流量数据分布产生变化:一方面,终端设备配置、应用场景等都可能随着时间不断变化,各终端的正常流量数据分布也会随之不断改变;另一方面,网络攻击不断演进,新型攻击层出不穷,各终端的入侵流量数据分布也可能发生变化。而基于历史数据训练出的入侵检测模型在新环境中难以发挥效用,阻碍了入侵检测方法的实际落地和使用。因此,考虑到网络环境动态变化对终端流量数据分布及整体入侵检测模型效果的影响,需要在联邦学习框架基础上,提升入侵检测模型面对新型未知流量数据分布的检测能力,实现对动态网络环境的快速自动适应。 为此,本文提出了一种基于联邦学习的网络入侵检测方法,通过自适应的终端训练和泛化增强的参数聚合,在保护隐私的同时适应网络的动态变化,实现了准确的入侵检测效果。具体来说: 1.提出一种终端网络环境自适应的入侵检测方法。通过扩展流量样本分布和有监督的对比学习,实现了损失函数的增强训练,各终端利用有限的历史标签数据训练出具有较强适应能力的本地入侵检测模型; 2.提出一种泛化增强的参数聚合方法。通过动态评估各终端对环境的适应能力,优化参数聚合权重和参数分配策略,增强了聚合模型面对新型未知流量数据分布的泛化能力; 3.基于网络入侵检测数据集UNSW-NB15和CICIDS2017,开展实验验证。结果证明,本文方法相比其他方法,面对UNSW-NB15和CICIDS2017的新型未知分布测试集,F1指标分别最多可提升10.82和5.93个百分点。可以得出结论,本文方法有效提升了入侵检测模型对动态网络环境的适应性,面对因网络环境变化而出现的新型未知分布流量数据,能够取得较好的入侵检测效果。