摘要
近年来随着手机等移动设备的大量普及以及社交媒体软件的大力发展,互联网上产生了海量的包含发布者感情倾向的主观性语言信息,了解和分析这些信息所蕴含的情感倾向,对于网上舆情监控、商业投资选择等领域具有重要的意义。而随着2017年BERT的横空出世,完全改变了自然语言处理的研究现状,包括情感分析在内的自然语言处理各领域几乎都迈入了新的阶段。尽管BERT的效果突出,但是庞大的模型规模和参数量严重阻碍了这类模型的线上应用,在尽可能保留模型效果的前提下缩减模型规模势在必行。本文针对目前情感分析和深度学习领域的发展现状,主要进行了以下的工作: 1.针对目前开源中文情感分析数据集稀少且质量不佳的问题,在开源数据集的基础上,通过对文本情感倾向进行再次标定的方法,建立了一个适用于中文情感分析的中文微博文本情感分析数据集。 2.将ALBERT运用到情感分析之中,建立了一个新的情感分析模型ALBERT-FN-M,提出了基于ALBERT的中文情感分析技术。并且与传统的词向量情感分析模型进行了比较,实验结果表明ALBERT-FN-M模型相比于传统词向量模型效果提升明显,比基于BERT的模型规模和参数量都大为减少。 3.通过应用知识蒸馏的方法,成功的将大模型ALBERT-FN-M的有效信息蒸馏到BiLSTM这样的小模型中,建立了微博文本情感分析模型ALBERT-D-Bi,提出了知识蒸馏在大型情感分析模型上的运用方法,相比于传统词向量模型性能提升明显,相比于原有的大模型,缩减了训练和推理时间。