面向推理类问题的机器阅读理解及其鲁棒性研究

唐竑轩¹

扫码查看

作者信息

1. 苏州大学
折叠

摘要

机器阅读理解(MachineReadingComprehension，简称MRC)是一项针对给定文本和特定问题自动生成或抽取相应答案的问答任务，该任务是评估计算机系统对自然语言理解程度的重要任务之一。目前已有大量开源机器阅读理解数据集发布，且现有的阅读理解模型已在非推理类数据集（如:SQuAD，TriviaQA等）上取得了与人类可比甚至超越人类的性能表现。但在考验模型推理能力的数据集（如:HotpotQA等）上与人类的性能表现仍有明显差距。为了提升现有阅读理解模型的推理能力，本文在HotpotQA数据集上展开研究，将推理类问题分为数值比较类问题与多跳推理类问题分别展开研究。针对数值比较类问题，本文提出一种包含线索文档判别、问题极性判别、文档极性判别、答案抽取与答案选择五个模块的神经阅读理解模型CQA，专门用于回答数值比较类问题。实验结果表明，CQA相较基线模型在HotpotQA数据集的比较类问题上平均F1值从52.27％提升至63.09％。针对多跳推理类问题，本文提出一种流水线式的解决方法RTR，该方法首先使用基于BERT的线索文档判别模型进行问题无关文档过滤。其次，使用基于多任务联合训练的阅读理解模型进行答案推理，该模型效仿人类找寻线索与推理答案的基本方式，分别执行支持事实判别和答案抽取两个关键步骤。RTR在HotpotQA数据集上取得了与前沿系统可比的性能表现。此外，为了使具备推理能力的模型投入实际生产应用，本文进一步构造了鲁棒性数据集HotpotQArobust，用以研究这些模型的鲁棒性。HotpotQArobust从过敏感和过稳定两个方面挑战现有的阅读理解模型。实验结果表明，无论是基于预训练语言模型，亦或是基于循环神经网络的阅读理解模型在HotpotQArobust鲁棒性测试集上的表现均比原始测试集有明显下降。本文也分析了现有模型在鲁棒性测试集上的行为表现，并有针对性地尝试提升模型鲁棒性的方法，这将为未来的模型开发提供建议。

关键词

机器阅读理解/数值比较/多跳推理/联合学习/鲁棒性

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

洪宇

学位年度

2021

学位授予单位

苏州大学

语种

中文

中图分类号

段落导航