摘要
随着互联网的发展,网络拓扑结构日趋复杂,网络应用的种类和数量不断增加,网络管理人员如何高效管理复杂网络,成为亟需解决的难题。网络流量分类识别作为网络管理的关键技术,能够改善网络性能,提高通信质量和资源利用率,同时对于及时发现网络异常,防止恶意攻击,提高业务的安全性和稳定性具有重要意义。 现有网络流量分类识别研究主要面向有监督场景,依赖于大量有类别标签的流量数据。然而,流量标记过程困难且耗时,现实中只能人为标记或收集少量标记流量数据,甚至无法获取任何标记流量。并且由于流量域之间存在数据分布差异,源流量域中训练得到的分类模型在迁移到少标签或无标签的目标流量域后分类效果下降。为了解决上述问题,学者们采用域自适应迁移学习方法减少域间数据分布差异,将有标记源流量域中学习到的知识迁移到目标流量域中,完成半监督以及无监督的流量分类任务。然而已有研究仍存在一定的挑战: (1)半监督场景中,现有方法难以衡量类别粒度下的分布差异性,不同类别可能会错误对齐,源流量域上训练得到的分类边界不再适用;传统方法仅利用少量有标签流量数据支撑模型训练,难以获取目标域中大量未标记流量的特征信息,模型欠缺对流量域全面的表征能力,并且在发生网络丢包时难以识别丢失部分信息的网络流量。 (2)无监督场景中,现有方法面对多源流量域时欠缺多尺度感知能力,聚焦于获取抽象的全局高阶特征,而忽略了局部特征信息丢失的问题,尤其是小型流量识别相对困难;在对齐多源流量域之间的分布时手段单一且不具备根据实际数据分布动态调整的能力;另外,难以区分每个源流量域对目标域流量分类任务的贡献,导致不相关源域误导模型训练。同时,多源流量域间的数据异质性问题以及多源分类器之间分类边界不一致使得类边界附近的流量分类误差较大。 针对上述问题,本文提出了基于域自适应迁移学习的网络流量分类识别方法,主要研究内容和创新点如下: (1)面向半监督(少标签)场景,提出了基于单源域自适应的网络流量分类识别方法。首先,提出了多粒度可辨别的单源域自适应方法,从域级和类级粒度上减少源流量域和目标流量域数据分布差异,鼓励流量样本类内聚敛、类间分离;其次,设计了暹罗稀疏去噪堆栈自动编码器,通过无监督重建损失和有监督分类损失联合指导训练,充分提取目标域流量特性,并添加高斯随机噪声和稀疏约束,迫使模型重建出原始未丢包的流量,有效识别丢失部分信息的网络流量。仿真实验表明,当目标域只含有少量有标签流量数据时,能够实现精准分类,有效识别其所属的网络应用。 (2)面向无监督(无标签)场景,提出了基于多源域自适应的网络流量分类识别方法。首先,设计了基于动态多尺度融合卷积的金字塔网络,提取不同尺度的流量特征,融合高阶和低阶特征,生成更具判别性的特征表达;其次,提出了基于协同分布对齐的多源域自适应方法,从对抗、边缘、条件分布三方面对齐源流量域和目标域的数据分布,根据域间分布差异动态调整分布对齐的方向;并提出了基于决策相关确定性的一致性校准加权网络流量分类器,衡量多源流量域对目标域流量分类任务的贡献,鼓励相似源域流量特性的迁移,抑制无关源域干扰。并通过样本优化和预测一致性校准,降低数据异质性,统一多源分类器决策边界。实验表明,当目标域流量数据无标签时,能够实现精准分类,有效识别其所属的网络应用。