首页|基于对比学习的生成式文本摘要方法研究

基于对比学习的生成式文本摘要方法研究

李坤睿

基于对比学习的生成式文本摘要方法研究

李坤睿1
扫码查看

作者信息

  • 1. 山西大学
  • 折叠

摘要

文本摘要旨在保持原文信息的基础上,有效地概括和呈现原文的关键信息,为读者提供简洁而全面的摘要。基于对比学习的方法能够通过在嵌入或离散空间中学习样本之间的差异,有效提升语言模型的表达能力和性能。近年来基于对比学习的文本摘要生成研究受到广泛关注,已取得了较好的摘要质量和生成性能。然而,现有基于对比学习的两阶段生成式文本摘要方法仍存在以下不足:在生成阶段,现有方法在嵌入空间没有充分捕获输入文章不同粒度的噪声信息;在评估阶段,现有方法在离散空间没有充分捕获输入文章的全局和局部上下文。 基于此,为了有效捕获输入文章的全局语义噪声和局部语义噪声,本文在生成阶段研究了基于多粒度对比暹罗网络的生成式文本摘要方法;为了有效捕获候选摘要和输入文章之间的局部相关性,本文在评估阶段探索了具有全局和局部上下文相关性的生成式文本摘要二阶段重排序方法。论文主要工作总结如下: 第一,提出了一种基于多粒度对比暹罗网络的生成式文本摘要方法。首先构建了融合字词级和句子级的多粒度数据增强方法,生成具有多样化噪声信息的增强文本对;其次设计了一种针对序列到序列(Seq2Seq)网络模型的对比学习机制,在嵌入空间中最大化增强文本对表示之间的一致性,同时将增强文本表示送入Seq2Seq解码器生成摘要。实验结果表明,该方法在CNN/Daily Mail和XSUM数据集上相比于基线模型获得了有效提升。 第二,提出了一种具有全局和局部上下文相关性的生成式文本摘要二阶段重排序方法。首先设计了多种策略捕获输入文章的局部关键信息,计算候选摘要和输入文章之间的相似性得分;然后执行对比训练,在离散空间中充分利用输入文章的全局和局部上下文对候选摘要重新排序。该方法在CNN/Daily Mail数据集上得到了有效验证,获得了90.22的BERTScore。 第三,根据本文生成式文本摘要方法的研究成果,设计并实现了一个基于对比学习的生成式文本摘要系统。

关键词

生成式文本摘要/对比学习/上下文相关性/重排序方法

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

张虎

学位年度

2024

学位授予单位

山西大学

语种

中文

中图分类号

TP
段落导航相关论文