摘要
随着人民生活水平的提高,互联网上的网络流量也呈显著增长。但由于网络环境错综复杂,如何对流量进行审查和管理成为了国家有关监管部门、运营商以及企业内部等单位的重要关注事件。目前,较为流行的网络流量分类方法是基于深度学习的方法,其避免了对专家提取特征的依赖,且能通过多层神经网络提取流量更深层次的特征,有效提升了分类的准确率。但是,一方面,基于深度学习的网络流量分类仍存在分类准确率性能提升有限的问题。另一方面,深度学习技术容易被不法分子滥用来捕获用户的流量,从而分析用户隐私。因此如何生成有效的流量对抗样本以在正常行使应用功能的前提下保护用户隐私也是一个重要问题。本文将对这些问题进行实验和探讨。 针对上述已有基于深度学习的网络流量分类中存在的分类准确率性能提升有限的问题,本文从自然语言处理领域的预训练模型受到启发,提出了一种字节嵌入向量的流量表征方式,以及基于预训练方法的网络流量分类模型OCEPT。跟已有方法中只使用带标流量数据集不同,我们的模型综合利用了大量易得的无标流量数据和少量带标流量数据。本文提出的模型包含2个模块,第一块是预训练部分,其将大量无标流量数据输入到预训练模型中充分训练,以学习流量字节的上下文语义表示,并提取出训练好的字节嵌入向量。第二块是分类部分,将训练好的嵌入向量输入到下游任务的网络流量分类器中进行微调。在ISCX VPN-nonVPN2016数据集上的实验结果表明,本文提出的基于预训练的网络流量分类方法,能够有效提高网络流量分类器的准确率和召回率等性能指标。 针对如何生成有效的对抗流量样本问题,本文借鉴了图像领域中基于集成方式的黑盒对抗样本生成策略,提出了一种新颖的适用于黑盒场景中的定向流量对抗样本生成方法E-ASGT。提出的方法基于一种假设,即如果生成的对抗样本可以欺骗多种分类模型,那么它有更大的概率欺骗未知的黑盒模型。基于此思路,首先选择若干个白盒流量分类模型作为替代模型,计算原始样本在多种分类器下的softmax输出,然后计算每个模型的输出和目标标签的损失值,损失值加权后再将损失反传,最后调整对抗样本的值。经过多次迭代,当损失函数收敛时,得到对抗样本。在QUIC流量数据集上的实验结果表明,使用所提出的方法生成的流量对抗样本能有效欺骗黑盒流量分类器。