摘要
机器阅读理解(Machine Reading Comprehension, MRC)是自然语言处理领域一个重要且具有挑战性的任务,它要求机器阅读和理解自然语言上下文的语义内容以回答问题。随着深度学习技术的迅速发展和机器阅读理解相关的各类数据集发布,MRC已成为国内外学者的重点研究方向之一。例如,在司法问答系统中,利用MRC技术构建的司法问答系统可以为用户提供准确、及时的法律咨询服务。 传统的MRC模型大多仅依靠单个段落的信息回答问题,但在实际应用中通常需要聚合多个段落的信息进行多跳跃推理才能获得准确答案。为了解决这个问题,学术界提出了多跳跃推理式机器阅读理解(Multi-hop MRC)任务。多跳跃机器阅读理解是一种需要机器在多个段落中执行跨越式的多次跳转推理才能获得答案的阅读理解任务。尽管目前已有的多跳跃机器阅读理解(Multi-hop MRC)模型取得了一定效果,但仍存在一些缺陷:首先,现有Multi-hop MRC段落选择模型不仅忽略了段落间多跳跃依赖关系,而且未考虑问题与每个段落的信息关联强弱关系,导致模型在下游阅读理解中引入干扰的分散注意力信息;其次,现有基于图神经网络的Multi-hop MRC模型构建图节点连边的类型不够丰富,未能充分融合图节点的交互信息;最后,通过图神经网络更新节点时执行同步消息传递,未考虑到不同粒度层次节点的语义关系具有不同的优先级,导致模型的推理能力和可解释性不足。针对上述问题,本文开展了如下工作: (1)提出了基于段落对排序学习的检索模型。首先,使用RoBERTa预训练模型作为问题与段落的编码模块,采用多头自注意力机制加强段落间的多跳跃推理,并且捕获问题与每个段落之间的语义信息。其次,构建段落评分机制,判断段落是否为支撑段落并对包含答案跨度的段落进行评分,将每个段落的评分与其他所有段落的评分进行比较,得到所有段落两两之间的段落对关系标签。最后,计算每个段落对的相似度得分,以此来预测问题与每个段落的相关性。在开源数据集HotpotQA Distractor设置上的实验结果表明,与现有的段落检索模型相比,本文提出段落检索模型可以显著提升支撑段落的检索效果。 (2)提出多粒度分步推理图注意力网络。基于段落对排序学习的检索模型选取支撑段落集合,并在此基础上进行后续的多跳跃推理。首先,构建多粒度动态图(选取实体、句子节点以及7种类型的连边),并定义了三种粒度层次的语义关系组,包括实体—实体、实体—句子和句子—句子。其次,采用RoBERTa和双向注意力机制对问题和支撑段落集合进行联合编码,提出基于不同粒度层次的语义关系组的分步消息传递方式(实体—实体?实体—句子?句子—句子)更新图节点。最后,通过多任务学习的方式实现答案的跨度预测、答案所在的证据支持句子预测和答案类型预测。实验结果表明,在开源数据集HotpotQA Distractor设置上,本模型在答案F1、支持句子F1和联合F1三个指标上相较于基线模型分别提升了23.83%、23.87%和34.22%,同时与现有主流模型相比,具有更强的性能。 (3)提出基于多粒度分步推理图注意力网络的司法文本机器阅读理解模型。针对现有中文司法领域机器阅读理解模型知识推理能力和可解释性不足的问题,将本文研究成果应用于中文司法领域的机器阅读理解中。在专业性较强、人物事件关系复杂的中文司法领域CAIL 2020数据集上进行实验,并与现有模型进行比较,实验结果证明本文的方法可以有效地提高司法文本机器阅读理解的准确度和效率,为法院获取案件信息及判决提供更加科学和准确的支持。