摘要
目前中文开放关系抽取的主流方法是根据句法分析结果制定抽取规则进行抽取,这种方法严重依赖于自然语言处理工具的处理效果.当文本句子长度较长时,自然语言处理工具准确性较低,关系抽取质量也随之下降.因此,提出了一种基于长句简化的开放关系抽取方法.首先,基于序列到序列模型框架对文本中的长句进行化简;然后,利用词法和句法规则对化简后的各个子句分别进行关系抽取.长句简化部分,将BERT的双向Transformer结构作为序列到序列模型的主体,输入端通过BERT-WWM预训练模型获取句子的文本向量,解码器利用UniLM的Seq2Seq Mask机制进行解码.关系抽取部分,首先,根据依存句法分析结果抽取出主谓宾结构的基础关系数据.然后,再根据词法、句法信息对实体和关系词进行补充.实验结果表明,该方法有效提高了对复杂长句的开放关系抽取的准确率和召回率.最后,对抽取的关系数据进行了错误分析,并对错误种类进行了归纳,为以后的开放关系抽取研究提供了参考.
基金项目
国防基础计划科研项目(JCKY2019204B007)