融合Focal Loss的网络威胁情报实体抽取

Fusion of Focal Loss's cyber threat intelligence entity extraction

郭渊博 ¹李勇飞 ¹陈庆礼 ¹方晨 ¹胡阳阳²

扫码查看

作者信息

1. 信息工程大学密码工程学院,河南郑州 450001
2. 加利福尼亚大学河滨分校,河滨 CA92521
折叠

摘要

网络威胁情报(CTI)蕴含丰富的威胁行为知识,及时分析处理威胁情报能够促进网络攻防由被动防御向主动防御的转变.当前多数威胁情报以自然语言文本的形式存在,包含大量非结构化数据,需要利用实体抽取方法将其转换为结构化数据以便后续处理.然而,由于威胁情报中包含大量漏洞名称、恶意软件、APT组织等专业词汇,且实体分布极不平衡,导致通用领域的实体抽取方法应用于威胁情报时受到极大限制.为此,提出一种融合Focal Loss的实体抽取模型,通过引入平衡因子和调制系数改进交叉熵损失函数,平衡样本分布.此外,针对威胁情报结构复杂且来源广泛,包含大量专业词汇的问题,在模型中增加单词和字符特征,有效改善了威胁情报中的OOV问题.实验结果表明,相较于现有主流模型BiLSTM和BiLSTM-CRF,所提模型在F1分数上分别提高了7.07％和4.79％,验证了引入Focal Loss和字符特征的有效性.

关键词

网络安全/威胁情报/实体抽取/样本不平衡

引用本文复制引用

基金项目

国家自然科学基金(61501515)

国家自然科学基金(61601515)

出版年

2022

通信学报

中国通信学会

通信学报

CSTPCDCSCD北大核心

影响因子：1.265

ISSN：1000-436X

被引量5

参考文献量3

段落导航