基于预训练模型的蒙古文自动文本摘要方法研究

韩永顺¹

扫码查看

作者信息

1. 内蒙古师范大学
折叠

摘要

近年来，互联网技术的快速发展已经对人们的日常生活提供了极大的便利，也对各语言文字的信息化发展产生了深远的影响。蒙古文作为我国少数民族语言文字之一，其在互联网上的信息量不断呈现出增长趋势。面对蒙古文信息的快速增长，如何迅速而准确地从大量的蒙古文信息资源中提炼出关键信息，降低用户的阅读负担，提高蒙古文信息的获取速度成为需要解决的问题。目前，蒙古文自动文本摘要方面研究较少，处于起步阶段。本文对蒙古文自动文本摘要方面进行了如下研究： (1)针对目前缺少公开的蒙古文单语预训练模型，本文通过收集和处理蒙古文文本语料训练了蒙古文IMNUBERT预训练模型。因蒙古文语言的特性，基于词的切分方法会导致模型词表过大出现未登录词问题，因此本文使用了子词切分方法。通过实验验证不同的分词算法对于模型的影响，发现基于BPE算法的IMNUBERT模型效果较好，在遮掩词预测任务上准确率达到 87.3%。为进一步评估模型在实际自然语言处理任务上的性能，本文在蒙古文文本分类任务上与 CINO-base-v2 模型进行了对比。通过实验发现，本文模型在WCM和MiTC文本分类数据集上相较于CINO-base-v2模型准确率分别提升了6%和1.15%。 (2)本文为提升 TextRank 算法生成的摘要质量，提出IMNUBERT-mnTextRank 方法。该方法是在 TextRank 算法的基础上改进了句间相似度计算方式和句子特征权重计算方式。该方法首先将本文中训练好的蒙古文IMNUBERT预训练模型作为外部语言知识库，强化句子向量的表示，提高了句子间相似度的计算准确性。其次，句子权重计算过程中引入句子位置、句子与标题相似度、关键词覆盖率以及蒙古文连词等新的句子特征，重新计算每个句子节点的初始权重，以更准确地反映句子在文章中的重要程度，使TextRank 算法在迭代计算过程中更好地感知句子节点之间的特征差异，提高生成的摘要质量。针对缺少公开的蒙古文摘要数据集问题，本文构建 1000条蒙古文文本摘要数据集。针对现有的 rouge工具无法正确评价蒙古文摘要质量问题，在rouge工具的基础上增加蒙古文分词和分句功能，使其能够正确评价蒙古文的摘要质量。最后通过实验发现本文提出的 IMNUBERT-mnTextRank 方法相较于 TextRank算法生成的蒙古文摘要质量在Rouge-1、Rouge-2、Rouge-L评价指标上分别提高18.3%、17.9%和19.9%。

关键词

蒙古文/自动文本摘要/预训练模型/TextRank算法

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

斯琴图

学位年度

2024

学位授予单位

内蒙古师范大学

语种

中文

中图分类号

段落导航