首页|基于预训练模型的蒙古文自动文本摘要方法研究

基于预训练模型的蒙古文自动文本摘要方法研究

韩永顺

基于预训练模型的蒙古文自动文本摘要方法研究

韩永顺1
扫码查看

作者信息

  • 1. 内蒙古师范大学
  • 折叠

摘要

近年来,互联网技术的快速发展已经对人们的日常生活提供了极大的便利,也对各语言文字的信息化发展产生了深远的影响。蒙古文作为我国少数民族语言文字之一,其在互联网上的信息量不断呈现出增长趋势。面对蒙古文信息的快速增长,如何迅速而准确地从大量的蒙古文信息资源中提炼出关键信息,降低用户的阅读负担,提高蒙古文信息的获取速度成为需要解决的问题。目前,蒙古文自动文本摘要方面研究较少,处于起步阶段。本文对蒙古文自动文本摘要方面进行了如下研究: (1)针对目前缺少公开的蒙古文单语预训练模型,本文通过收集和处理蒙古文文本语料训练了蒙古文IMNUBERT预训练模型。因蒙古文语言的特性,基于词的切分方法会导致模型词表过大出现未登录词问题,因此本文使用了子词切分方法。通过实验验证不同的分词算法对于模型的影响,发现基于BPE算法的IMNUBERT模型效果较好,在遮掩词预测任务上准确率达到 87.3%。为进一步评估模型在实际自然语言处理任务上的性能,本文在蒙古文文本分类任务上与 CINO-base-v2 模型进行了对比。通过实验发现,本文模型在WCM和MiTC文本分类数据集上相较于CINO-base-v2模型准确率分别提升了6%和1.15%。 (2)本文为提升 TextRank 算法生成的摘要质量,提出IMNUBERT-mnTextRank 方法。该方法是在 TextRank 算法的基础上改进了句间相似度计算方式和句子特征权重计算方式。该方法首先将本文中训练好的蒙古文IMNUBERT预训练模型作为外部语言知识库,强化句子向量的表示,提高了句子间相似度的计算准确性。其次,句子权重计算过程中引入句子位置、句子与标题相似度、关键词覆盖率以及蒙古文连词等新的句子特征,重新计算每个句子节点的初始权重,以更准确地反映句子在文章中的重要程度,使TextRank 算法在迭代计算过程中更好地感知句子节点之间的特征差异,提高生成的摘要质量。针对缺少公开的蒙古文摘要数据集问题,本文构建 1000条蒙古文文本摘要数据集。针对现有的 rouge工具无法正确评价蒙古文摘要质量问题,在rouge工具的基础上增加蒙古文分词和分句功能,使其能够正确评价蒙古文的摘要质量。最后通过实验发现本文提出的 IMNUBERT-mnTextRank 方法相较于 TextRank算法生成的蒙古文摘要质量在Rouge-1、Rouge-2、Rouge-L评价指标上分别提高18.3%、17.9%和19.9%。

关键词

蒙古文/自动文本摘要/预训练模型/TextRank算法

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

斯琴图

学位年度

2024

学位授予单位

内蒙古师范大学

语种

中文

中图分类号

TP
段落导航相关论文