针对机器阅读理解跨度提取任务自训练方法的研究

付蒙恩¹

扫码查看

作者信息

1. 湘潭大学
折叠

摘要

机器阅读理解（MachineReadingComprehension）旨在教授机器在理解给定的段落文本后回答问题的正确答案，它也是自然语言理解的基础和长远的目标。目前已经存在多种不同形式的机器阅读理解任务，比如抽取式和推理式阅读理解任务，研究人员通常专注于一种类型的任务的研究，但现实生活中的应用情况往往需要模型能够同时处理多种不同类型的任务。其次自然语言处理模型往往以监督学习的方法在大量的标签数据样本上进行训练，以期望模型能够学到更多潜在的知识。然而，在实际应用场景诸如法律、金融和医疗等领域标注数据严重缺失，而标注大量样本的成本比较昂贵。综上所述，如何有效地处理多任务阅读理解数据以及无标注数据成为了本文研究的重要内容。针对多任务阅读理解数据处理的问题，已有的方法通过引入额外的辅助损失函数分别处理不同的阅读理解任务。然而基于辅助损失的多任务学习模型往往采用平均损失加权方法，这样的处理并没有在模型训练中实现多任务之间的平衡。其次针对无标注数据的使用，自训练方法可以有效利用标注和无标注数据提升深度学习模型的性能。在自然语言处理领域，自训练方法广泛应用与文本分类和序列标注任务中，然而大多数的方法都是基于句子嵌入对于目标标签的概率分布进行预测从而选择伪标签样本，这样的方法对于跨度提取任务中并不适用，因为跨度提取任务需要模型从词级层面预测问题的答案跨度。本文的创新工作如下：我们提出了阅读理解跨度提取自训练方法，该方法由两部分组成：多任务融合训练阅读理解模型和基于词级的伪标签选择器。多任务融合训练阅读理解模型通过将不同任务模块的输出统一为跨度提取任务输出，有效的解决了基于辅助损失函数的多任务学习模型无法实现训练中多任务之间的平衡的问题。基于词级的伪标签选择器使用模型预测输出中的开始和结束位置的置信度获取有价值的伪标签数据，有效的将自训练方法应用至阅读理解跨度提取任务中，有效地解决文本自训练方法在词级层面获取伪标签的问题。我们在SQuAD2.0、CAIL2019以及医嘱文本数据集的进行了实验，结果表明我们提出的机器阅读理解跨度提取自训练方法在法律和医疗领域对于机器阅读理解模型性能的提升效果达到1-2%。

关键词

机器阅读理解/预训练模型/深度学习/自训练/跨度提取

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

欧阳建权

学位年度

2022

学位授予单位

湘潭大学

语种

中文

中图分类号

段落导航