首页|融合抽取式和抽象式的藏文摘要算法

融合抽取式和抽象式的藏文摘要算法

扫码查看
为了推动文本摘要技术在藏文领域的发展,采用两阶段微调的方法,构建了一种融合抽取式和抽象式的藏文摘要模型(BERT-ext-abs),保留了摘要的流畅性和语义一致性.训练抽取式藏文摘要模型BERT-ext,在此基础上进行第二次微调,得到抽象式藏文摘要模型BERT-ext-abs.从训练模型结构和数据规模两个角度分别设置对比实验,结果表明,相较于未经过二次微调的抽象式藏文摘要模型BERT-abs,BERT-ext-abs模型在ROUGE-1 分数上提高了3.23%,在BERT Score分数上提高了0.95%.此外,与BERT-abs相比,BERT-ext-abs的模型参数量和训练数据量更少,能更高效地生成流畅且语义一致的摘要.
Tibetan summarization algorithm combining extractive and abstractive methods
To advance text summarization technology in the Tibetan language,this study employs a two-stage fine-tuning approach to develop a Tibetan summarization model that integrates extractive and abstractive techniques,ensuring both flu-ency and semantic consistency in summaries.An extractive Tibetan summarization model,BERT-ext,was trained first,fol-lowed by a second fine-tuning stage to create the abstractive model,BERT-ext-abs.Comparative experiments were conduc-ted in terms of model structure and dataset size.Results indicate that,compared to the purely abstractive Tibetan summari-zation model,BERT-abs,the BERT-ext-abs model achieves a 3.23%improvement in ROUGE-1 score and a 0.95%in-crease in BERT Score.Additionally,the BERT-ext-abs model requires fewer parameters and less training data than BERT-abs,enabling it to generate fluent and semantically consistent summaries more efficiently.

extractive summarizationabstractive summarizationpre-trainingbidirectional encoder representations from transformers(BERT)Tibetan language

高一鸣、魏志恒、多拉、王文强、左祥建、贾星星

展开 >

兰州大学 数学与统计学院,兰州 730000

省部共建藏语智能信息处理及应用国家重点实验室,西宁 810000

青海省藏文信息处理与机器翻译重点实验室,西宁 810000

中山大学 网络空间安全学院,广东 深圳 210000

重庆邮电大学 网络空间安全与信息法学院,重庆 400065

展开 >

抽取式摘要 抽象式摘要 预训练模型 双向编码器表征法 藏文

2024

重庆邮电大学学报(自然科学版)
重庆邮电大学

重庆邮电大学学报(自然科学版)

CSTPCD北大核心
影响因子:0.66
ISSN:1673-825X
年,卷(期):2024.36(6)