融合语言学特征的中文机器阅读理解研究

闫维宏¹

扫码查看

作者信息

1. 哈尔滨工业大学
折叠

摘要

理解自然语言是人工智领域面临的一项艰巨挑战，近年来热门的机器阅读理解（Machine Reading Comprehension，MRC）任务以“问-答”的形式检测模型对自然语言的理解能力。尽管各类模型在多个数据集上的性能已经超越人类表现，但是与真实场景的应用还有一定差距。针对中文机器阅读理解任务的数据和模型，本文主要研究内容如下： 1）提出一种中文机器阅读理解问答对数据生成方法。机器阅读理解任务的关键挑战之一是标注数据的稀疏性，一种可选的解决方法是无监督地从大规模的非结构文本生成问答对数据。因此本文提出了一种中文机器阅读理解数据生成方法，以深度生成模型条件变分自编码器为基础，以文本段落为先验条件，构建问题和答案的隐空间，得到问答对生成模型。通过从维基百科中筛选的段落无监督地生成对应段落中的问题与答案对，并提出了一种综合考量问题和答案质量的评分与筛选方法来评估问答对的质量。实验论证了生成方法的有效性，仅仅使用人工生成的问答对数据训练的机器阅读理解模型在CMRC2018数据集的验证集上就可以得到74.69%的F1精确率和57.35%的EM精确率。 2）提出一种融合语言学特征的中文机器阅读理解方法。对于机器阅读理解模型，预训练语言模型虽然能够为每个词提供优良的上下文表示特征，但却无法显式地给出语言学特征，而这些特征往往是理解整体语义的基础。本文通过显式地引入语言学特征，探究其对于预训练模型阅读理解能力的影响。首先，本文选用了词性标注和命名实体识别来提供词法特征，使用依存分析来提供句法特征，将二者与预训练模型输出的上下文表示相融合。随后，设计了基于注意力机制的自适应特征融合方法来融合不同类型特征，在CMRC2018数据集上的实验证明本方法以极低的算力资源成本，引入语言特征可以帮助模型在F1和EM指标上分别可以取得0.37%和1.56%的提升。 3）设计并实现了一个开放域中文机器阅读理解系统。以上述工作中最优的机器阅读理解模型为基础，设计并实现一个开放域中文机器阅读理解系统，直观地展示本文工作结果。首先介绍了系统功能的设计与实现，包括数据交互与实例展示的的流程，接着介绍了在实际应用中如何对输入的文本数据进行数据的预处理以及答案的抽取，最后进行了具体示例的展示。

关键词

机器阅读理解/问答对数据生成/特征融合/预训练语言模型/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

刘秉权

学位年度

2022

学位授予单位

哈尔滨工业大学

语种

中文

中图分类号

段落导航