计算机技术与发展2023,Vol.33Issue(2) :203-207,213.DOI:10.3969/j.issn.1673-629X.2023.02.030

基于长句简化的中文开放关系抽取

Chinese Open Relation Extraction Based on Long Sentence Simplification

熊建华 韩永国 廖竞 寇露彦 吴昌述
计算机技术与发展2023,Vol.33Issue(2) :203-207,213.DOI:10.3969/j.issn.1673-629X.2023.02.030

基于长句简化的中文开放关系抽取

Chinese Open Relation Extraction Based on Long Sentence Simplification

熊建华 1韩永国 1廖竞 1寇露彦 1吴昌述1
扫码查看

作者信息

  • 1. 西南科技大学 计算机科学与技术学院,四川 绵阳 621010
  • 折叠

摘要

目前中文开放关系抽取的主流方法是根据句法分析结果制定抽取规则进行抽取,这种方法严重依赖于自然语言处理工具的处理效果.当文本句子长度较长时,自然语言处理工具准确性较低,关系抽取质量也随之下降.因此,提出了一种基于长句简化的开放关系抽取方法.首先,基于序列到序列模型框架对文本中的长句进行化简;然后,利用词法和句法规则对化简后的各个子句分别进行关系抽取.长句简化部分,将BERT的双向Transformer结构作为序列到序列模型的主体,输入端通过BERT-WWM预训练模型获取句子的文本向量,解码器利用UniLM的Seq2Seq Mask机制进行解码.关系抽取部分,首先,根据依存句法分析结果抽取出主谓宾结构的基础关系数据.然后,再根据词法、句法信息对实体和关系词进行补充.实验结果表明,该方法有效提高了对复杂长句的开放关系抽取的准确率和召回率.最后,对抽取的关系数据进行了错误分析,并对错误种类进行了归纳,为以后的开放关系抽取研究提供了参考.

关键词

开放关系抽取/长句简化/依存句法分析/序列到序列模型/BERT模型

引用本文复制引用

基金项目

国防基础计划科研项目(JCKY2019204B007)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量6
段落导航相关论文