首页|基于预训练模型的跨语言对话状态追踪研究

基于预训练模型的跨语言对话状态追踪研究

向宇

基于预训练模型的跨语言对话状态追踪研究

向宇1
扫码查看

作者信息

  • 1. 北京交通大学
  • 折叠

摘要

对话状态追踪是任务型对话系统的关键组成部分,旨在整个对话过程中提取用户的目标或意图,并推断更新当前对话的状态。近年来,在单语言场景中对话状态追踪研究取得显著进展。然而,随着全球化的加速,对多语言对话系统的需求急剧增加。收集和标注大规模对话数据既耗时又费力,很多语言缺乏足够的训练数据。现有研究方法主要通过语码转换数据增强或多语言预训练模型的中间微调来解决跨语言数据缺失的问题,但这些方法仍存在语码转换数据质量低下和句子间交互信息丢失的问题。本文针对以上问题进行研究,研究内容和贡献总结如下: (1)针对语码转换数据质量不佳的问题,提出基于重要性语码转换的跨语言对话状态追踪模型( Significance-based Code-switching for Cross-Lingual Dialogue State Tracking,SCS-DST)。该模型由基于重要性的语码转换模块、编码器以及解码器组成。在构建语码转换数据时,提出一种基于重要性的关键词抽取算法。该算法利用编码器提取的句子及子词特征,并结合余弦相似度和逆文档频率指数(Inverse Document Frequency,IDF),从而选出与任务高度相关且重要性分数高的关键词。接着,这些关键词以一定概率被替换为目标语言中的对应词汇,生成专为下游任务设计的语码转换语句。然后,SCS-DST模型结合多语言预训练模型来编码序列,采用门控循环单元(Gate Recurrent Unit,GRU)生成槽位的槽值。SCS-DST模型在Multilingual WoZ 2.0和Parallel MultiWoZ数据集上均取得最优性能,证明了模型的有效性。 (2)针对句子间交互信息丢失的问题,提出基于对比学习的跨语言对话状态追踪模型( Contrastive Learning for Cross-Lingual Dialogue State Tracking,CLCL-DST)。该模型首先通过自建的双语词典进行词汇替换,以构建多语言视角下同一话语的不同视图。接着,利用细粒度对比学习通过缩小不同视图中特定槽位的表示距离,同时增大与负样本的距离,以此对齐跨语言中的相似单词至更精细的语言不变空间。为进一步提升模型性能,在基于重要性的语码转换模块基础上,引入了短语转换模块。该模块能有效生成更高质量的语码转换数据。实验结果表明,加入细粒度对比学习后,CLCL-DST能更好地捕捉源语言和目标语言间的共性,进一步提升模型性能。

关键词

跨语言对话状态追踪/对比学习/语码转换/预训练模型

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

徐金安

学位年度

2024

学位授予单位

北京交通大学

语种

中文

中图分类号

TN
段落导航相关论文