重庆邮电大学学报(自然科学版)2024,Vol.36Issue(6) :1215-1222.DOI:10.3979/j.issn.1673-825X.202312120415

融合抽取式和抽象式的藏文摘要算法

Tibetan summarization algorithm combining extractive and abstractive methods

高一鸣 魏志恒 多拉 王文强 左祥建 贾星星
重庆邮电大学学报(自然科学版)2024,Vol.36Issue(6) :1215-1222.DOI:10.3979/j.issn.1673-825X.202312120415

融合抽取式和抽象式的藏文摘要算法

Tibetan summarization algorithm combining extractive and abstractive methods

高一鸣 1魏志恒 1多拉 2王文强 3左祥建 4贾星星5
扫码查看

作者信息

  • 1. 兰州大学 数学与统计学院,兰州 730000
  • 2. 省部共建藏语智能信息处理及应用国家重点实验室,西宁 810000;青海省藏文信息处理与机器翻译重点实验室,西宁 810000
  • 3. 中山大学 网络空间安全学院,广东 深圳 210000
  • 4. 重庆邮电大学 网络空间安全与信息法学院,重庆 400065
  • 5. 兰州大学 数学与统计学院,兰州 730000;省部共建藏语智能信息处理及应用国家重点实验室,西宁 810000;青海省藏文信息处理与机器翻译重点实验室,西宁 810000
  • 折叠

摘要

为了推动文本摘要技术在藏文领域的发展,采用两阶段微调的方法,构建了一种融合抽取式和抽象式的藏文摘要模型(BERT-ext-abs),保留了摘要的流畅性和语义一致性.训练抽取式藏文摘要模型BERT-ext,在此基础上进行第二次微调,得到抽象式藏文摘要模型BERT-ext-abs.从训练模型结构和数据规模两个角度分别设置对比实验,结果表明,相较于未经过二次微调的抽象式藏文摘要模型BERT-abs,BERT-ext-abs模型在ROUGE-1 分数上提高了3.23%,在BERT Score分数上提高了0.95%.此外,与BERT-abs相比,BERT-ext-abs的模型参数量和训练数据量更少,能更高效地生成流畅且语义一致的摘要.

Abstract

To advance text summarization technology in the Tibetan language,this study employs a two-stage fine-tuning approach to develop a Tibetan summarization model that integrates extractive and abstractive techniques,ensuring both flu-ency and semantic consistency in summaries.An extractive Tibetan summarization model,BERT-ext,was trained first,fol-lowed by a second fine-tuning stage to create the abstractive model,BERT-ext-abs.Comparative experiments were conduc-ted in terms of model structure and dataset size.Results indicate that,compared to the purely abstractive Tibetan summari-zation model,BERT-abs,the BERT-ext-abs model achieves a 3.23%improvement in ROUGE-1 score and a 0.95%in-crease in BERT Score.Additionally,the BERT-ext-abs model requires fewer parameters and less training data than BERT-abs,enabling it to generate fluent and semantically consistent summaries more efficiently.

关键词

抽取式摘要/抽象式摘要/预训练模型/双向编码器表征法/藏文

Key words

extractive summarization/abstractive summarization/pre-training/bidirectional encoder representations from transformers(BERT)/Tibetan language

引用本文复制引用

出版年

2024
重庆邮电大学学报(自然科学版)
重庆邮电大学

重庆邮电大学学报(自然科学版)

CSTPCD北大核心
影响因子:0.66
ISSN:1673-825X
段落导航相关论文