摘要
随着互联网的高速发展,电商行业日益壮大,“新零售”成为当前社会最受人们关注的业态,越来越多用户的消费习惯由线下转为线上,通过便捷地在手机上浏览商品的图片、描述以及其他用户的评价,从而做出自己的决策。那么商家想要提升用户的购买欲,就要从多个方面改善产品。其中,购买过产品的用户的评价就成了非常宝贵的改进意见。传统的文档级情感分析任务能够帮助商家获得用户评价的总体情感偏向,但是无法获取更加精细的方面级情感信息。基于方面级的情感分析是一种新颖的细粒度情感分类任务,该任务要求模型从文本中识别出蕴含的不同方面目标所对应的情感判别,其实用性与当下人们的需求更加贴近,从而成为自然语言处理领域一个十分重要的任务。 目前,国内外学者们针对方面级情感分析任务做出了许多研究,从利用经典的神经网络到使用当前最热门的预训练语言模型,但仍存在一些不足之处:(1)现有的基于预训练模型的下游网络处理以中性样本为主的情感模糊场景时,模型性能会出现下降的现象;(2)在极性标签两极化的语料库中,模型处理不同极性评语样本的性能存在较大的不平衡(如,某一类极性标签在训练集中的占比极少,模型可能无法识别该类极性)。文本针对以上问题进行了相关研究,具体内容如下: (1)基于BERT的方面级情感分析提示模型Prompt-MPL。本文在现有标准模板(包含输入槽、答案槽以及模板文本)的基础上添加了与方面级情感分析任务相关的关键词槽和方面目标槽,通过无微调的BERT模型自动为不同的预训练模型和语义场景生成离散提示模板。为了改善因数据集不平衡的影响,文本设计了一种基于多提示学习的数据增强方法,还设定了数据增强的规则以平衡数据集差异,避免模型过度拟合以及实验对比的公平性。实验证明,本文所提出的Prompt-MPL模型性能优于现有的模型。其中,离散模板自动生成方法能够探索预训练模型所掌握的方面级情感分析任务相关的知识,从而使得模型在训练过程中更好地理解下游任务;另外,基于多提示学习的数据增强方法能够有效解决因数据集不平衡造成的模型性能下降问题。 (2)基于BERT的组合语义细化网络模型Prompt-CSR。该模型在Prompt-MPL的BERT编码层后增加包含全局语义细化模块和多粒度局部语义提取模块的语义细化网络,通过组合更加细致的多语义表征,进一步加深了模型在有提示基础上对评语样本的理解和分析。另外,本文将所提出的方法迁移到其他预训练模型中,发现它们都能够取得与BERT相似的性能提升,证明了本文方法具有较好的可移植性。 本文在五个公开数据集上进行了丰富的实验,与现有研究相比,本文的方法在一些极性标签两极化的数据集上,将宏观F1值提高了10%左右,在以中性样本为主的情感细腻、晦涩难懂的数据集上,将宏观F1值提高了7%左右。