首页|基于关键信息增强的中文长文本摘要自动生成

基于关键信息增强的中文长文本摘要自动生成

扫码查看
现有的文本自动摘要方法在处理长文本过程中存在关键信息冗余、准确率低的问题。论文提出一种面向中文长文本的三阶段文本摘要算法,首先利用文本压缩算法对长文本进行固定范围的信息压缩,过滤与主题无关的冗余信息,然后结合预训练模型Bert学习句子深层语义特征,进一步提取主题信息丰富的关键句,最后使用融合指针机制的Seq2Seq模型对关键句进行生成式重写。通过基于真实大规模财经领域长文本数据上的实验,验证了该算法在中文长文本摘要上的有效性。
Automatic Summarization of Chinese Long Text Based on Key Information Enhancement
The existing automatic text summarization methods have the problems of redundant key information and low accura-cy in processing long texts.This paper proposes a three-stage text summarization algorithm for Chinese long text.Firstly,the text compression algorithm is used to compress the long text information in a fixed range,and the redundant information irrelevant to the topic is filtered.Then,the deep semantic features of sentences are learned by combining the pre-training model Bert,and the key sentences with rich topic information are further extracted.Finally,the Seq2Seq model with the pointer mechanism is used to rewrite the key sentences.The effectiveness of this algorithm on Chinese long text summarization is verified by experiments based on real large-scale long text data in financial field.

text summarizationlong text compressionpre-trainingsummary generationpointer mechanism

李永星、黄文明、肖雁南、温雅媛、邓珍荣

展开 >

桂林电子科技大学计算机与信息安全学院 桂林 541004

广西师范大学电子工程学院 桂林 541004

摘要生成 长文本压缩 预训练 摘要生成 指针机制

2024

计算机与数字工程
中国船舶重工集团公司第七0九研究所

计算机与数字工程

CSTPCD
影响因子:0.355
ISSN:1672-9722
年,卷(期):2024.52(11)