基于预训练模型的法律文书命名实体识别研究

严鑫杰¹

扫码查看

作者信息

1. 常州大学
折叠

摘要

随着人们法律意识的提高，法律文书数量不断增长，导致法院审判业务面临“案多人少”的困境，审判管理压力逐步增大。因此，对法律文书的命名实体进行提取，是解决以上问题的关键，能为类案推荐、刑事案件量刑辅助等具有现实意义的应用提供坚实的数据基础。然而，目前对法律文书命名实体的识别存在公共数据集缺乏、可训练语料不足、法律文书术语多、语义捕捉不足和低频生僻实体识别效果不佳等问题。因此，主要从以下三个方面来解决这些问题。首先，针对数据量少、可训练语料不足的问题，从中国裁判文书网采集了民事案件法律文书，并制定了民事案件实体定义方案。然后采用数据增强的方式扩充训练语料，并使用带有正则匹配实体的辅助标注程序，构建了民事案件法律文书数据集，以供后续模型训练使用。其次，针对文书术语多、语义捕捉不足的问题，提出了一种可以识别法律文书中实体的模型。该模型的词嵌入层基于BERT(BidirectionalEncoderRepresentationfromTransformers)预训练模型，引入词格结构信息，用于表示单词的各种不同特征之间的交互关系，从而提高了模型在各种语言处理任务上的性能。特征提取层采用BiLSTM(Bi-directionalLongShort-TermMemory)对输入的文本序列进行特征提取和建模，可以更好地理解法律文书中的语言规律和结构，从而提高法律文书命名实体识别的准确性。最后，通过CRF(ConditionalRandomField)算法解码，根据序列中的标注规律，对输入序列进行联合概率建模，从而对每个单词进行标注。实验表明，该模型对法律文书中实体识别的效果较好。最后，针对低频生僻实体识别效果不佳的问题，进一步提出了一种改良模型。该模型的嵌入层基于BERT预训练模型并融合了汉字字形特征，再通过ONLSTM(OrderedNeuronsLongShort-TermMemory)层学习句子的层级结构，从而提高序列建模的能力。这种方法可以提高模型对输入序列中的上下文信息的理解，从而更好地处理命名实体识别问题。输出层由CRF算法解码预测结果。实验表明，该方法提高了低频实体的识别能力。

关键词

命名实体识别/预训练模型/法律文书/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

杨长春

学位年度

2023

学位授予单位

常州大学

语种

中文

中图分类号

段落导航