计算机技术与发展2022,Vol.32Issue(10) :126-131.DOI:10.3969/j.issn.1673-629X.2022.10.021

面向特定领域文本的重叠关系语料库构建方法

Constructing of Corpus of Overlapping Relationships for Domain-specific Text

刘凯 廖湘琳 张宏军
计算机技术与发展2022,Vol.32Issue(10) :126-131.DOI:10.3969/j.issn.1673-629X.2022.10.021

面向特定领域文本的重叠关系语料库构建方法

Constructing of Corpus of Overlapping Relationships for Domain-specific Text

刘凯 1廖湘琳 1张宏军1
扫码查看

作者信息

  • 1. 陆军工程大学 指挥控制工程学院,江苏 南京210000
  • 折叠

摘要

实体关系语料库是信息抽取领域的基础数据资源,其规模和质量直接影响信息抽取深度学习模型的效果.目前建立的特定领域语料库在重叠关系方面的研究较少,且现有方法需要高昂的人工标注成本.该文融合已有的基于实体识别和触发词规则的语料标注算法,基于自定义关系schema实现网络文本中重叠关系的自动标注.首先,借助特定领域专业词典进行命名实体识别,构造命名实体集;然后根据自定义关系模式schema和依存句法分析进行特征词聚类,构造触发词词典;最后,基于命名实体集和触发词词典进行语料回标.该算法有效减少了人工标注量,标注速度快,标注后的语料规模较大,有效提取重叠关系信息,为特定领域信息抽取扩充语料库提供了可行方案.同时,该文探讨了数据源可用性,评价了标注质量并对语料库进行了统计分析.实验结果显示,该方法总体回标成功率为76.7%,总体关系标注准确率为85.8%,利用基础重叠关系抽取模型进行实验,实验结果F1值达到93.68%.

关键词

实体关系/信息抽取/语料库构建/schema/触发词

引用本文复制引用

基金项目

国家自然科学基金(61806221)

出版年

2022
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量4
段落导航相关论文