通信学报2024,Vol.45Issue(8) :62-74.DOI:10.11959/j.issn.1000-436x.2024105

基于提示问答数据增强的小样本网络安全事件检测方法

Few-shot cybersecurity event detection method by data augmentation with prompting question answering

汤萌萌 郭渊博 张晗 白庆春 陈庆礼 张博闻
通信学报2024,Vol.45Issue(8) :62-74.DOI:10.11959/j.issn.1000-436x.2024105

基于提示问答数据增强的小样本网络安全事件检测方法

Few-shot cybersecurity event detection method by data augmentation with prompting question answering

汤萌萌 1郭渊博 2张晗 3白庆春 4陈庆礼 1张博闻5
扫码查看

作者信息

  • 1. 信息工程大学密码工程学院,河南 郑州 450001
  • 2. 海南大学网络空间安全学院,海南 海口 570100
  • 3. 郑州大学网络空间安全学院,河南 郑州 450001
  • 4. 上海开放大学上海开放远程教育工程技术研究中心,上海 200082
  • 5. 郑州浪潮数据技术有限公司,河南 郑州 450001
  • 折叠

摘要

针对网络安全领域的事件识别标注数据较为匮乏且场景和语义复杂,难以构建准确的事件识别模型的问题,提出了一种基于提示问答数据增强的小样本网络安全事件检测方法.首先利用提示信息获取事件表示知识,并结合标签词映射网络安全事件类型,从未标注的文本中生成新的数据来扩充训练数据;然后使用生成的高置信度的伪标注实例和原始数据来微调模型,以增强模型对网络安全事件的语义理解能力;最后在2个网络安全领域数据集上进行了实验验证.结果表明,与其他基线方法相比,所提方法在低资源网络安全事件检测任务上具有很强的优越性.

Abstract

The cybersecurity field lacks sufficient annotated data for event recognition,and the scenarios and semantics are complex,making it difficult to construct accurate event recognition models.A few-shot cybersecurity event detection method by data augmentation with prompting question answering was proposed.Firstly,event representation knowledge was obtained using prompt information and combined with label words to map cybersecurity event types.New data was generated from unlabeled text to expand the training data.Then,the generated high-confidence pseudo-annotated in-stances and raw data were used to fine-tune the model to enhance its semantic understanding of cybersecurity events.Ex-perimental verification was conducted on two datasets in cybersecurity.The result showes that the proposed method's substantial superiority in low-resource network security event detection tasks compared to other baseline methods.

关键词

网络安全/事件检测/提示问答/数据增强/小样本

Key words

cybersecurity/event detection/prompting question answering/data augmentation/few-shot

引用本文复制引用

基金项目

国家自然科学基金(62276091)

国家自然科学基金(62307028)

河南省重大公益专项(201300311200)

上海市自然科学基金(23ZR1441800)

上海市启明星项目扬帆专项(23YF1426100)

出版年

2024
通信学报
中国通信学会

通信学报

CSTPCDCSCD北大核心
影响因子:1.265
ISSN:1000-436X
参考文献量39
段落导航相关论文