摘要
近些年,随着国家法制建设的推进,如何通过信息抽取技术从海量司法文书中获取有用信息,助力于“智慧司法”建设,已成为自然语言处理领域中的研究热点。其中,关系抽取作为司法信息抽取技术中的关键技术之一,不仅能够帮助办案人员进行案件要素的关系梳理,提高办案效率,还可为司法问答、司法推理、司法知识图谱构建提供重要的技术支持,因此,其研究意义重大。然而由于司法文本的复杂性和特殊性,导致各罪名案件间的关系诉求存在较大差异,这给关系抽取的研究工作带来了很大的挑战。 首先,针对司法二元关系抽取任务中,由于实体间的跨阶依存导致语义学习不充分的问题,提出一种基于主题模型的加权图卷积网络(Tp-WGCN),该方法采用改进的LAM算法构建邻接矩阵,不仅有效避免了跨阶依存信息的丢失,还提高了模型的推理能力。该方法还提出了一种基于主题模型的实体信息增强方法,进一步丰富了实体的知识信息。本文还构建了包含5种关系的涉毒类案件关系抽取数据集。在该数据集上,Tp-WGCN与PA-LSTM、伴随注意力机制的图卷积网络等模型相比,模型的F1值可提升1.3%,性能表现优异。 其次,针对司法复杂关系抽取中,由于司法文书情节描述繁杂、实体关系交错,导致实体重叠的问题,本文提出一种基于刑事Electra(CriElectra)的编-解码关系抽取模型来解决多重关系抽取问题。该方法采用司法预训练语言模型CriElectra捕获文本信息,并通过胶囊网络进行关系分类,不仅让词表示蕴含更丰富的领域信息,还有效防止了矢量信息丢失。此外,本文还构建了包含10种关系的故意伤害罪关系数据集,其中多重关系占7.6%。在该数据集上,模型的F1值可达79%,有效实现了多重关系的识别。 最后,针对自然语言处理中各研究技术落地难度较大、非研究人员无法直接理解模型结果等问题,本文基于关系抽取的研究工作,结合前端技术,进行关系抽取可视化工作。对于用户提交的案件文本,该系统可自动识别案件类别,并选择不同的文本处理方式处理文本,然后将处理之后的数据输入到关系抽取模型,实现关系抽取。抽取结果在前端页面将以文本、关系图的方式进行展示,方便大家研究学习。