通信学报2022,Vol.43Issue(7) :85-92.DOI:10.11959/j.issn.1000-436x.2022132

融合Focal Loss的网络威胁情报实体抽取

Fusion of Focal Loss's cyber threat intelligence entity extraction

郭渊博 李勇飞 陈庆礼 方晨 胡阳阳
通信学报2022,Vol.43Issue(7) :85-92.DOI:10.11959/j.issn.1000-436x.2022132

融合Focal Loss的网络威胁情报实体抽取

Fusion of Focal Loss's cyber threat intelligence entity extraction

郭渊博 1李勇飞 1陈庆礼 1方晨 1胡阳阳2
扫码查看

作者信息

  • 1. 信息工程大学密码工程学院,河南 郑州 450001
  • 2. 加利福尼亚大学河滨分校,河滨 CA92521
  • 折叠

摘要

网络威胁情报(CTI)蕴含丰富的威胁行为知识,及时分析处理威胁情报能够促进网络攻防由被动防御向主动防御的转变.当前多数威胁情报以自然语言文本的形式存在,包含大量非结构化数据,需要利用实体抽取方法将其转换为结构化数据以便后续处理.然而,由于威胁情报中包含大量漏洞名称、恶意软件、APT组织等专业词汇,且实体分布极不平衡,导致通用领域的实体抽取方法应用于威胁情报时受到极大限制.为此,提出一种融合Focal Loss的实体抽取模型,通过引入平衡因子和调制系数改进交叉熵损失函数,平衡样本分布.此外,针对威胁情报结构复杂且来源广泛,包含大量专业词汇的问题,在模型中增加单词和字符特征,有效改善了威胁情报中的OOV问题.实验结果表明,相较于现有主流模型BiLSTM和BiLSTM-CRF,所提模型在F1分数上分别提高了7.07%和4.79%,验证了引入Focal Loss和字符特征的有效性.

关键词

网络安全/威胁情报/实体抽取/样本不平衡

引用本文复制引用

基金项目

国家自然科学基金(61501515)

国家自然科学基金(61601515)

出版年

2022
通信学报
中国通信学会

通信学报

CSTPCDCSCD北大核心
影响因子:1.265
ISSN:1000-436X
被引量5
参考文献量3
段落导航相关论文