摘要
现如今的互联网每天都在产生海量数据,如何对数据进行有效的分类,并发掘其中的关联关系成为亟待解决的问题。关系抽取作为自然语言处理中主流的研究领域,常用于信息的结构化抽取。因果关系作为一种常见的关系类型,抽取出的结构化数据可以应用到智慧医疗、关系推理、知识问答等领域中,让人们生活更加便捷。因此,如何高效抽取文本中的因果关系成为当前急需解决的问题。 传统的关系抽取模型因为使用机器学习方法存在抽取规则定义复杂、标注任务量较大以及抽取结果准确率不高等问题。深度学习凭借着近些年来计算机性能和容量的提升得到广泛应用。循环神经网络和长短期记忆网络在此期间先后出现,通过与单词预训练生成的词向量结合便可以很好地从文本中提取特征,因此越来越广泛的应用到了关系抽取中来。2018年谷歌提出了BERT模型,实现了对文本词向量的动态生成,提升了多项任务的准确率。但由于BERT预训练模型是在开放域语料训练得到的,缺乏一定的专业领域文本知识。而训练专业领域文本通常需要花费海量的算力和时间,普通实验室难以实现。 本文提出一种将BERT与知识库结合的因果关系抽取方法,利用BERT根据上下文特征动态生成词向量的特点,结合本文自建的因果关系知识库,提出C-BERT模型,将C-BERT模型生成的词向量输入到BiLSTM+CRF层完成对因果关系的抽取。本文的主要贡献有:1)建立因果关系知识库;2)提出C-BERT+BiLSTM+CRF模型,将因果知识库与深度学习算法结合,应用到因果关系抽取领域;3)以SemEval数据集为基础,筛选出6128条包含一因一果关系的句子并重新标注成CDS(Causality Dataset based on Semeval)数据集。实验结果表明,C-BERT+BiLSTM+CRF模型与主流模型相比,其结果在精确率、召回率、F1值上均有所提高。