首页|基于法律文书的刑期预测研究——以故意伤害罪为例

基于法律文书的刑期预测研究——以故意伤害罪为例

张皎睿

基于法律文书的刑期预测研究——以故意伤害罪为例

张皎睿1
扫码查看

作者信息

  • 1. 华中科技大学
  • 折叠

摘要

大数据时代的到来与人工智能的发展促进了各个行业的智能化变革,在司法实践领域中,专业要求高、案件处理工作量大等情况成为了加速司法智能化发展的现实因素,而公开可查、数量庞大的裁判文书又为司法智能化提供了即专业又可观的研究数据,这些法律文书中有潜藏着许多值得挖掘的信息。因此基于裁判文书等法律文书的量刑预测等研究由此而起。 在司法智能化的背景下,本文将研究对象限定在刑事案件中的故意伤害罪上,以该单一罪名案例裁判文书中的犯罪事实与案情描述作为研究数据,将量刑预测问题中的刑期预测作为研究任务,将该任务转换为自然语言处理中的文本分类任务进行研究。具体研究如下: 首先本文从CAIL2018数据集中筛选得到约18.9万数据进行预处理,基于法律文书的专业性在分词中加入自定义词典提高分词准确率,并依据刑法知识将刑期划分为12个类别以缓解刑期类别过多及刑期分布不均衡的问题,并使用法律文书预训练word2vec模型。在文本表达过程中,使用TF-IDF权重法、以及预训练的word2vec模型进行特征提取与词嵌入。 本文在模型构建过程中分别使用SVM、LightGBM、TextCNN以及加入自注意力机制优化的TextCNN模型进行法律文书数据的刑期分类研究,经过模型训练发现加入自注意力机制的法律文书TextCNN刑期预测模型预测效果最优。通过实验对比,基于法律文书的深度学习刑期预测模型预测效果总体上优于传统机器学习模型,TextCNN模型在准确率、偏差得分及加权F1值方面均优于LightGBM模型,而加入自注意力机制优化的TextCNN模型通过对特征进行加权优化,在原有模型的基础上偏差得分提升0.96,准确率、加权F1分别提升了1.71%、1%。本文所提出的基于法律文书的刑期预测模型架构,可以为司法量刑实践中的刑期预测规范化提供一定的参考。

关键词

裁判文书/刑期预测/文本分类/自注意力机制/TextCNN模型

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

梅正阳

学位年度

2021

学位授予单位

华中科技大学

语种

中文

中图分类号

TP
段落导航相关论文