面向司法文书的关系抽取技术研究

王小鹏¹

扫码查看

作者信息

1. 大连理工大学
折叠

摘要

近些年，随着国家法制建设的推进，如何通过信息抽取技术从海量司法文书中获取有用信息，助力于“智慧司法”建设，已成为自然语言处理领域中的研究热点。其中，关系抽取作为司法信息抽取技术中的关键技术之一，不仅能够帮助办案人员进行案件要素的关系梳理，提高办案效率，还可为司法问答、司法推理、司法知识图谱构建提供重要的技术支持，因此，其研究意义重大。然而由于司法文本的复杂性和特殊性，导致各罪名案件间的关系诉求存在较大差异，这给关系抽取的研究工作带来了很大的挑战。首先，针对司法二元关系抽取任务中，由于实体间的跨阶依存导致语义学习不充分的问题，提出一种基于主题模型的加权图卷积网络(Tp-WGCN)，该方法采用改进的LAM算法构建邻接矩阵，不仅有效避免了跨阶依存信息的丢失，还提高了模型的推理能力。该方法还提出了一种基于主题模型的实体信息增强方法，进一步丰富了实体的知识信息。本文还构建了包含5种关系的涉毒类案件关系抽取数据集。在该数据集上，Tp-WGCN与PA-LSTM、伴随注意力机制的图卷积网络等模型相比，模型的F1值可提升1.3%，性能表现优异。其次，针对司法复杂关系抽取中，由于司法文书情节描述繁杂、实体关系交错，导致实体重叠的问题，本文提出一种基于刑事Electra(CriElectra)的编-解码关系抽取模型来解决多重关系抽取问题。该方法采用司法预训练语言模型CriElectra捕获文本信息，并通过胶囊网络进行关系分类，不仅让词表示蕴含更丰富的领域信息，还有效防止了矢量信息丢失。此外，本文还构建了包含10种关系的故意伤害罪关系数据集，其中多重关系占7.6%。在该数据集上，模型的F1值可达79%，有效实现了多重关系的识别。最后，针对自然语言处理中各研究技术落地难度较大、非研究人员无法直接理解模型结果等问题，本文基于关系抽取的研究工作，结合前端技术，进行关系抽取可视化工作。对于用户提交的案件文本，该系统可自动识别案件类别，并选择不同的文本处理方式处理文本，然后将处理之后的数据输入到关系抽取模型，实现关系抽取。抽取结果在前端页面将以文本、关系图的方式进行展示，方便大家研究学习。

关键词

二元关系抽取/多重关系抽取/预训练语言模型/关系抽取可视化/司法文书

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

孙媛媛

学位年度

2021

学位授予单位

大连理工大学

语种

中文

中图分类号

段落导航