基于深度强化学习的网络入侵检测方法研究

崇云浩¹

扫码查看

作者信息

1. 北京交通大学
折叠

摘要

随着互联网技术的快速发展，网络入侵事件时有发生，因此提高网络入侵检测技术的水平迫在眉睫。传统的入侵检测技术难以应对愈发复杂的网络入侵，而深度学习模型能从充足的数据中提取到丰富的入侵特征，从而改善网络入侵的检测效果。但网络入侵检测对检测的实时性要求较高，而训练深度学习模型比较费时，这是深度学习模型的不足之处。为了弥补深度学习模型应用于网络入侵检测领域的不足，本文使用深度强化学习算法研究了网络入侵检测问题。深度强化学习结合了深度学习对大量数据的表征能力和强化学习中智能体的自主决策能力，可以将网络入侵检测过程转化为智能体的动作决策过程。为了使深度强化学习模型能应用于网络入侵检测领域，本文首先对网络入侵检测领域的马尔可夫决策过程进行建模。然后基于构建的马尔可夫决策过程，本文提出了DQN(DeepQ-Network)的入侵检测模型，并针对DQN模型存在的过度估计问题，本文进一步优化了目标Q值的计算，构建了DoubleDQN(DoubleDeepQ-Network)的入侵检测模型。实验结果表明在网络入侵检测场景下，深度强化学习模型的性能优于深度学习模型，其中Accuracy提升了19.0％,F1-Score提升了41.3％,模型训练时长也比深度学习模型降低了47.5％。为了解决现实的网络入侵场景中同时存在已知和未知入侵的问题，本文提出了结合无监督学习和深度强化学习的DRDDQN(DualReward-basedDoubleDQN)算法。首先，对该场景下的马尔可夫决策过程进行建模，提出了融合外部奖励与好奇心奖励的双重奖励机制，其中外部奖励是环境给予智能体行为的预定义奖励,好奇心奖励是根据无监督的iForest算法计算而得。然后，结合DoubleDQN算法设计了能同时检测已知和未知入侵的DRDDQN算法。最后，本文构建了包含无标签数据的污染数据集，并利用该数据对模型的效果进行验证。实验结果表明，本文提出的DRDDQN算法在大部分污染数据集上的性能都优于最新研究算法，Accuracy的提升最高达到16.7％,F1-Score的提升最高达到15.4％。综上，本文提出了基于DQN和基于DoubleDQN的入侵检测模型，还提出了结合无监督学习和深度强化学习的DRDDQN模型，这些模型为网络入侵检测提供了新的解决方案。

关键词

网络安全/入侵检测/深度强化学习/DRDDQN算法

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

张大林

学位年度

2023

学位授予单位

北京交通大学

语种

中文

中图分类号

段落导航