摘要
随着网络安全威胁和风险日益增多,威胁情报技术受到了学术界和产业界的广泛关注。对威胁情报信息的收集、分析与共享,可以帮助网络安全从业人员制定安全防御策略,应对紧急安全事件,监测威胁主体活跃态势。另一方面,信息抽取作为自然语言处理领域的重要任务,旨在从无规则文本中抽取关键内容并形成结构化信息,对于威胁情报文本信息的抽取与整合有着重要的研究意义与应用价值。在此背景下,如何从开源威胁情报文本中自动化抽取关键信息,构建威胁情报知识网络已经成为一个重要的研究课题。 本文针对威胁情报领域与信息抽取领域的国内外研究现状与发展趋势展开了深入研究,总结了现有技术的优势与不足之处。在此基础上,着重研究了本体构建技术、命名实体识别技术与实体关系抽取技术,发现这些技术在直接迁移至威胁情报领域时,会存在诸如缺少已标注数据集、通用模型与威胁情报文本不适配、实体识别与关系抽取性能不佳等问题。此外,目前的研究中仍缺少使用深度学习方法进行威胁情报领域信息抽取的相关方案与技术路线。因此,本文针对基于深度学习的威胁情报信息抽取关键技术展开研究。 结合威胁情报领域的特殊性与深度学习方法,本文针对威胁情报领域的信息抽取技术做出改进。首先,采用自顶向下的方法构建了一个以高级持续性威胁(AdvancedPersistentThreats,APT)组织为核心的本体结构,还原威胁主体的活跃态势与攻击模式,并以此为基础定义了威胁情报领域的命名实体及其关系。其次,提出了基于知识增强的威胁情报领域命名实体识别方法,采用神经网络模型来避免机器学习方法对特征工程的强依赖,同时引入先验知识指导模型抽取威胁情报命名实体。接下来,提出了基于实体掩码技术的威胁情报领域关系抽取方法,引入了实体类型与序列信息,采用BERT(BidirectionalEncoderRepresentationfromTransformers)神经网络学习实体关系特征并实现文档级关系抽取,避免了因重复编码而导致的资源浪费问题。最后利用图数据库存储威胁情报实体及关系三元组,构建威胁情报知识网络。 本文设计并实现了一个基于深度学习的威胁情报信息抽取模型,将该模型划分为数据准备模块、威胁情报命名实体识别模块、威胁情报关系抽取模块与知识网络存储模块,并详细介绍了系统的设计目标,整体框架以及各功能模块的关键技术实现。 通过收集威胁情报文本,本文采用半自动方法对威胁情报相关实体及其关系进行标注,并搭建实验环境,针对命名实体识别任务和关系抽取任务分别进行相关实验,对基于深度学习的威胁情报信息抽取模型进行整体测试和评估。实验结果表明,本文提出的基于深度学习的威胁情报信息抽取模型能够有效地从威胁情报文本中抽取命名实体及其关系,构建以APT组织为核心的威胁情报知识网络,反映APT组织攻击范式与活动规律。