基于预训练和对抗学习的跨领域情感分类研究

王艺潼¹

扫码查看

作者信息

1. 北京邮电大学
折叠

摘要

文本情感分析旨在提取主观文本表达的情感倾向、观点及看法，在市场调研、消费决策、个性推荐、舆情分析等多种场景中发挥重要作用。传统情感分析方法通常在特定领域进行训练和测试。在某些领域中，训练数据较少或者情感标注质量不高，往往导致传统模型表现不佳。因此，跨领域情感分析任务成为研究热点。通过跨领域学习，使用源领域训练好的模型在目标领域进行微调和迁移学习，可以解决传统情感分析模型的领域特定性和数据稀缺性的问题。本文旨在解决跨领域情感分析任务面临的三个核心挑战，即领域适应性问题、样本选择性问题和知识迁移策略问题。其目标是构建具有强泛化能力、高精度和鲁棒性的模型，以在数据稀缺的领域内有效地进行情感分析。现有研究方法存在以下问题尚未解决:1）文本情感特征提取中表征学习效率较低;2）在复杂情况下，领域特征对齐的鲁棒性不足;3）源领域数量增加时领域融合冗余过多。为解决这些问题，本文采用深度学习模型、对抗学习思想和多任务学习机制等技术，提出了一种新的多源跨领域情感分析方法。具体研究工作包括以下三个部分: 第一，为了增强对领域共享情感特征的表征学习效率，本文提出了一种基于情绪感知预训练的文本特征提取方法:该方法利用经过领域共享情感词典和大规模评论语料库预训练的语言模型来生成上下文相关的词向量，从而有助于习到更多深层次、与情感相关但不依赖于特定领域的语义信息。此外，该方法还采用了“共享-私有”参数多任务学习机制以更加有效地区分领域共享和私有特征。第二，为了增强对决策边缘模糊情感特征的领域判别能力，本文提出了一种基于域差异度量和对抗学习的领域特征对齐方法:该方法通过定义一种全新的数据分布距离计算工具来度量不同领域之间的差异，并最小化这些差异来实现领域特征对齐。同时，该方法还引入了一个专门设计用来执行对抗训练的领域鉴别器。通过最小化鉴别器损失函数，进一步在源领域中筛选与目标领域共享的情感表达特征。第三，为了在多源领域场景下更好调整各个源领域的贡献比例，本文提出了一种基于域置信度的多源领域融合方法，并结合前两点工作内容提出端到端的多源跨领域情感分析模型。模型不仅能够通过情绪感知预训练、域差异度量和对抗学习有效提取用于目标领域的共享情感知识，还能够自动学习各个源领域对目标领域的“置信度”，调整贡献比例进行多源领域融合，灵活适应于在各种场景下的多源跨领域情感分析任务。针对上述研究工作，本文进一步探究并设计了丰富的验证实验和对比实验以测试其有效性和进步性。实验结果表明，本文提出的方法具有良好的性能表现，可以显著提高中文跨领域情感分析准确度。

关键词

跨领域情感分类/预训练语言模型/对抗训练/多任务学习/情感词典

引用本文复制引用

授予学位

硕士

学科专业

通信工程

导师

范春晓

学位年度

2023

学位授予单位

北京邮电大学

语种

中文

中图分类号

段落导航