基于深度学习的犯罪嫌疑人对话主题分割与识别方法研究

古长汶¹

扫码查看

作者信息

1. 广西民族大学
折叠

摘要

犯罪嫌疑人手机中的通讯服务应用程序会产生海量对话文本，其中部分关键对话段落可以作为警察破案的证据。但是，面对海量对话文本，利用常规方法难以高效地从嫌疑人的对话文本中找到能作为证据的对话段落。针对这一问题，提出一种基于深度学习的犯罪嫌疑人对话主题分割与识别方法，辅助警察从海量对话文本中快速找到目标段落。该方法分为两个阶段，第一个阶段:对包含了多个主题的对话文本进行对话主题分割，分割后的每个主题段落只包含一个主题，第二个阶段:对分割后得到的主题段落进行对话主题识别。警察可以根据识别出的主题类别快速找到相关段落，提高查找效率。本文根据上述两个阶段为核心展开研究，主要的工作内容及成果如下: （1）犯罪嫌疑人对话文本处理:针对用于犯罪嫌疑人对话主题分割和对话主题识别训练数据缺乏的问题，从犯罪嫌疑人手机中获取到1694个对话文本，通过对对话文本的清洗、修正、筛选，得到1103个高质量的犯罪嫌疑人对话文本。（2）对话主题分割:针对TextTiling文本分割算法不适合用于处理对话文本的问题，提出通过BERT模型的下一句预测机制对TextTiling算法增强，将其应用到犯罪嫌疑人对话主题分割。利用下一句预测计算输入的两个句子是否连续的概率作为两个句子的相似度，使其适用于犯罪嫌疑人对话文本。实验结果表明，本文提出的分割方法在测试数据上相比TextTiling算法F1值提高2.4％。（3）对话主题识别:BERT模型利用多头注意力机制对文本进行特征提取具有很好的效果，为了更加充分利用BERT模型提取到的语义特征，提出BERT-BiLSTM模型，利用BiLSTM模型以一种不同于多头注意力机制的方式学习BERT模型输出的向量化表示的特征，即以循环累积的方式学习特征。将BERT-BiLSTM模型与BERT模型在测试数据上的实验结果进行对比，F1提升1.2％,证明新的混合模型能够提高对话主题识别精度。在完成两个阶段的模型的训练后，将第一阶段分割得到的主题段落也作为第二阶段的测试数据，实验结果F1为60.5％,证明本文提出的基于深度学习的犯罪嫌疑人对话主题分割与识别方法具有可行性。

关键词

对话主题分割/对话主题识别/多头注意力机制/特征提取/深度学习

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

文勇

学位年度

2023

学位授予单位

广西民族大学

语种

中文

中图分类号

段落导航