面向机器阅读理解长文本的建模方法研究与应用

张慧兵¹

扫码查看

作者信息

1. 内蒙古大学
折叠

摘要

作为自然语言处理领域关键任务之一，机器阅读理解的目标在于使机器具备理解文本含义的能力，以便从文本中提炼信息并解答相关问题。在智能信息检索、智能客服等多个应用场景中，机器阅读理解技术发挥着至关重要的作用,能够辅助人们快速准确地获取所需信息，被认为是实现通用型人工智能的关键技术之一。然而，现有的机器阅读理解模型在处理长文本输入和多片段答案抽取方面仍存在挑战。本文针对这些问题进行了研究，设计了相关算法和机制来解决问题，并且基于预训练模型，构建了一个能有效处理长文本和进行多片段答案抽取的机器阅读理解模型。本文的主要研究工作如下: (1)针对机器阅读理解任务中长文本建模的问题，提出了一种句粒度文本切分算法。该算法能有效降低切分文本时答案被切断的风险。通过将长文本构建成有向图并采用动态规划算法求解最优路径，实现了以句子为单位的文本切分，有效减少了段落间的冗余。实验结果表明，该算法在机器阅读理解任务中取得了显著的效果。 (2)设计了基于多头注意力的段落特征融合机制，以缓解长文本切分后整体信息缺失的问题。该机制通过多头注意力计算，将多个段落的特征信息融合到对单个段落进行模型推理的过程当中，使得模型在进行单独段落推理时可以参考到所有段落间的信息。实验证明，引入该机制可有效提升机器阅读理解性能模型。 (3)为解决机器阅读理解任务中的多片段答案难以抽取的问题，提出了一种基于序列标注的答案预测模块。该模块改进了序列标注任务的基本方法，并融合边界模型的特点，使之可以适应多片段答案抽取任务，将多片段答案在文本序列中良好的预测出来。（4）针对答案预测模块输出的预测序列无法直接进行多答案片段的抽取的问题，设计了一种基于贪心原则的解码算法。该算法通过贪心策略匹配答案片段的开始和结束位置，从而有效地提高抽取答案片段的准确性。为了更好的测试模型算法在多片段答案抽取任务上的有效性，对真实搜索问答数据集进行了二次标注。实验证明，基于序列标注的答案预测模块和基于贪心原则的解码算法可以有效提升多片段答案抽取阅读理解的准确度。本文在CMRC2018数据集以及真实搜索问答数据集上进行了若干实验。实验结果显示，与基准模型相比，本研究模型在EM值和F1值上都取得了显著提高，从而验证了所提出方法的有效性。最后依据本文模型搭建了智能搜索机器阅读理解问答原型系统，以展示本研究的实际应用价值。

关键词

机器阅读理解/长文本建模/多头注意力/多片段答案抽取/预训练模型

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

徐晓东

学位年度

2023

学位授予单位

内蒙古大学

语种

中文

中图分类号

段落导航