摘要
随着人们法律意识的提高,法律文书数量不断增长,导致法院审判业务面临“案多人少”的困境,审判管理压力逐步增大。因此,对法律文书的命名实体进行提取,是解决以上问题的关键,能为类案推荐、刑事案件量刑辅助等具有现实意义的应用提供坚实的数据基础。然而,目前对法律文书命名实体的识别存在公共数据集缺乏、可训练语料不足、法律文书术语多、语义捕捉不足和低频生僻实体识别效果不佳等问题。因此,主要从以下三个方面来解决这些问题。 首先,针对数据量少、可训练语料不足的问题,从中国裁判文书网采集了民事案件法律文书,并制定了民事案件实体定义方案。然后采用数据增强的方式扩充训练语料,并使用带有正则匹配实体的辅助标注程序,构建了民事案件法律文书数据集,以供后续模型训练使用。 其次,针对文书术语多、语义捕捉不足的问题,提出了一种可以识别法律文书中实体的模型。该模型的词嵌入层基于BERT(BidirectionalEncoderRepresentationfromTransformers)预训练模型,引入词格结构信息,用于表示单词的各种不同特征之间的交互关系,从而提高了模型在各种语言处理任务上的性能。特征提取层采用BiLSTM(Bi-directionalLongShort-TermMemory)对输入的文本序列进行特征提取和建模,可以更好地理解法律文书中的语言规律和结构,从而提高法律文书命名实体识别的准确性。最后,通过CRF(ConditionalRandomField)算法解码,根据序列中的标注规律,对输入序列进行联合概率建模,从而对每个单词进行标注。实验表明,该模型对法律文书中实体识别的效果较好。 最后,针对低频生僻实体识别效果不佳的问题,进一步提出了一种改良模型。该模型的嵌入层基于BERT预训练模型并融合了汉字字形特征,再通过ONLSTM(OrderedNeuronsLongShort-TermMemory)层学习句子的层级结构,从而提高序列建模的能力。这种方法可以提高模型对输入序列中的上下文信息的理解,从而更好地处理命名实体识别问题。输出层由CRF算法解码预测结果。实验表明,该方法提高了低频实体的识别能力。