基于图神经网络跨域句法分析研究

杨帅¹

扫码查看

作者信息

1. 北京师范大学
折叠

摘要

作为自然语言处理领域的基础任务之一，依存句法分析主要用于得到输入句子的句法结构。受益于神经网络强大的表征能力，句法分析器在域内规范性文本的性能得到极大的提高。然而，在域外文本，特别是不规范的网络文本上，句法解析器的性能急剧下降。因此，领域自适应已经成为句法分析在真实自然语言处理系统应用的主要挑战。考虑到无法通过人工标注大规模目标领域的高质量数据现实，我们的研究工作主要从两个方面展开。一方面，我们建立一个基于图神经网络的跨域依存句法分析模型。我们的模型主要有两部分组成:用于挖掘高阶信息的图神经网络、以及用于在多层神经网络中生成用于最后预测的伪打分矩阵的双仿射打分器。另一方面，考虑到各个领域之间的数据特征分布存在差异是句法解析器性能下降的原因。结合知识蒸馏可以在不同领域的任务上进行学习并实现知识迁移的特征，我们通过知识蒸馏中深度相互学习的策略，使得源领域的教师模型和目标领域的学生模型在整个训练中互相学习借鉴，提高了模型在目标领域的泛化效果和鲁棒性。总的来说，本文的主要工作和贡献如下: （1）提出基于图神经网络的跨域依存句法分析模型。我们通过在图神经网络中嵌入伪双仿射打分器，更能利用图神经网络所获取到的语法信息。本文在公开发布的中文跨领域依存句法数据集——汉语开放树库（CODT）上，分别针对“单源零样本”和“多源零样本”领域迁移场景进行了实验，实验结果显示，在“单源零样本”场景以及“多源零样本”场景，我们的模型相比较目前性能最优的模型，实现了在各个领域UAS、LAS值的提升，说明了模型的有效性。随后，针对于模型神经网络层数以及伪孪生双仿射打分器对模型性能提升的贡献，我们在各个领域内进行了详细的分析。（2）设计并实现了基于知识蒸馏的图神经网络跨域依存句法分析模型。我们采用知识蒸馏的思想，通过在线蒸馏策略，使得在源领域训练的教师模型和在目标领域训练的学生模型在整个训练中互相学习借鉴，进而实现模型性能的提升。实验结果表明，相比较其他迁移学习方法，在“单源零样本”场景下，相较于其他迁移学习方式，采用在线蒸馏的学习方式最能提升基于图神经网络的跨域依存句法分析模型的性能。并且在“多源零样本”场景下，用在线蒸馏的学习方式在基于图神经网络的跨域依存句法分析模型的基础上，实现了在单个领域UAS、LAS值的提升，说明在线蒸馏的学习策略可以提高模型的适应性和鲁棒性。最后，我们也在各个领域内详细研究了在线蒸馏中教师模型参数对整体模型性能的影响。

关键词

图神经网络/跨域句法分析/知识蒸馏

引用本文复制引用

授予学位

硕士

学科专业

计算机软件与理论

导师

宋继华

学位年度

2023

学位授予单位

北京师范大学

语种

中文

中图分类号

段落导航