面向对话的自动摘要技术研究

李文雅¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

对话摘要是针对对话形式的文本进行信息概括和总结，并生成简短精炼的摘要的任务，是文本摘要中的重要分支。近年来，随着线上社交手段的飞速发展，对话形式的文本呈现爆炸式增长，而对这海量的文本进行关键信息总结和压缩是一个重要的探索和研究方向。目前对话摘要的发展主要基于早期文本摘要的发展成果，但是对话文本与传统方法所针对的文本形式有着明显的不同。传统的摘要大多基于以单一视角行文，由专业人员使用正式的表达和严谨的语法编写的文档，例如新闻、科学文献等。而对话由至少两个人完成，其视角和人称会频繁转变，尤其是日常对话中，用语往往较为随便，对话文本本身的质量并不高。因此传统文本摘要的发展成果无法直接应用于对话摘要。如何在已有的文本摘要技术基础上，深度挖掘对话文本的潜在问题，并进行对话摘要任务的建模是当前的重要发展方向。总结来说，现有对话摘要任务主要存在以下三方面的挑战:(1)事实信息分布松散。对话中的重要信息分布并不紧密，即使是简单的信息也会横跨多个句子，经由多轮的信息交互后才能完成。这种问题会导致模型对对话中重要信息捕捉困难，从而生成与原文中事实不一致的摘要内容。(2)视角与角色的转变。对话的显著特征是视角的转变，且在特定领域的对话中视角的转变还涉及到角色的转换，由此引出了在说话人特征挖掘方面的难题。说话人本身承载的是不同的信息角色，且说话人之间的信息交互也是必要的，简单地将对话文本按照单一视角进行建模会导致对说话人的特征捕捉不足而遗漏重要信息。(3)主题边界模糊。对话中不存在段落结构，但对话的主题会经常改变，明确的段落结构的缺失会导致主题间的边界十分模糊。而缺少对主题信息的挖掘会使模型缺少对相同主题下的语义识别能力，从而对相同主题下语句的语义特征捕捉不准确。在以上挑战的基础上，本文分别提出了在事实信息，说话人特征，主题特征挖掘层面的解决方案，取得了如下的研究成果: 1.基于事实增强机制的对话摘要方法针对对话中信息松散而容易出现事实不一致的问题，本文提出了一种基于事实增强机制的对话摘要模型FA-DS(Fact-AugmentationMechanismbasedDialogueSummarization)。该方法通过明确对话文本中的事实信息并增强其语义表示，使模型在正确事实信息的引导下生成与原文更加一致的摘要，并通过加入区分重要事实的监督信号监督模型的增益作用。实验结果表明，该方法可以通过强调事实信息来增强模型总结重要信息的能力，得到更高质量的摘要，在自动评价指标ROUGE值上有所提高，并在摘要与原文事实不一致问题上有改善效果。 2.基于说话人特征的对话摘要方法针对视角与角色增多的问题，本文提出了基于说话人特征的对话摘要模型SFDS(SpeakerFeaturebasedDialogueSummarization)。该模型通过挖掘说话人的个人特征和说话人间的交互特征来建模说话人特征，并将含有说话人信息的特征分别应用于编码阶段和解码阶段，在更详细的说话人特征的引导下生成更加优质的摘要。实验结果表明，我们的方法在捕捉说话人特征的同时为文本表示融人说话人的潜在特征，在自动评价指标ROUGE和BERTScore,MoverScore上均有提高。 3.基于主题自监督的对话摘要方法针对对话中主题边界模糊的问题，本文设计了基于主题自监督的对话摘要模型(Topicself-supervisedbasedDialogueSummarization)。该方法提出了两种对比学习目标，分别利用在相同主题下的语句连贯性属性和主题段落与中心句的语义关系，使模型能够识别对话中较为模糊的主题边界，并将文本的语义向主题中心的语义靠拢。实验证明我们的方法能够更加明确地识别主题边界，并将相关语句向主题中心的语义靠拢，在此基础上生成ROUGE得分更高的摘要。

关键词

对话摘要/文本摘要/自然语言处理

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

周晓飞

学位年度

2023

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航