融合抽取式和抽象式的藏文摘要算法

扫码查看

原文链接

万方数据

中文摘要：为了推动文本摘要技术在藏文领域的发展,采用两阶段微调的方法,构建了一种融合抽取式和抽象式的藏文摘要模型(BERT-ext-abs),保留了摘要的流畅性和语义一致性.训练抽取式藏文摘要模型BERT-ext,在此基础上进行第二次微调,得到抽象式藏文摘要模型BERT-ext-abs.从训练模型结构和数据规模两个角度分别设置对比实验,结果表明,相较于未经过二次微调的抽象式藏文摘要模型BERT-abs,BERT-ext-abs模型在ROUGE-1 分数上提高了3.23%,在BERT Score分数上提高了0.95%.此外,与BERT-abs相比,BERT-ext-abs的模型参数量和训练数据量更少,能更高效地生成流畅且语义一致的摘要.

外文标题：Tibetan summarization algorithm combining extractive and abstractive methods

外文摘要：To advance text summarization technology in the Tibetan language,this study employs a two-stage fine-tuning approach to develop a Tibetan summarization model that integrates extractive and abstractive techniques,ensuring both flu-ency and semantic consistency in summaries.An extractive Tibetan summarization model,BERT-ext,was trained first,fol-lowed by a second fine-tuning stage to create the abstractive model,BERT-ext-abs.Comparative experiments were conduc-ted in terms of model structure and dataset size.Results indicate that,compared to the purely abstractive Tibetan summari-zation model,BERT-abs,the BERT-ext-abs model achieves a 3.23%improvement in ROUGE-1 score and a 0.95%in-crease in BERT Score.Additionally,the BERT-ext-abs model requires fewer parameters and less training data than BERT-abs,enabling it to generate fluent and semantically consistent summaries more efficiently.

外文关键词：

extractive summarizationabstractive summarizationpre-trainingbidirectional encoder representations from transformers(BERT)Tibetan language

作者：

高一鸣、魏志恒、多拉、王文强、左祥建、贾星星

展开 >

作者单位：

兰州大学数学与统计学院,兰州 730000

省部共建藏语智能信息处理及应用国家重点实验室,西宁 810000

青海省藏文信息处理与机器翻译重点实验室,西宁 810000

中山大学网络空间安全学院,广东深圳 210000

重庆邮电大学网络空间安全与信息法学院,重庆 400065

展开 >

关键词：

抽取式摘要抽象式摘要预训练模型双向编码器表征法藏文

出版年：

2024

DOI：

10.3979/j.issn.1673-825X.202312120415

重庆邮电大学学报(自然科学版)

重庆邮电大学

重庆邮电大学学报(自然科学版)

CSTPCD北大核心

影响因子：0.66

ISSN：1673-825X

年,卷(期)：2024.36(6)