摘要
目前,人们对于情感的表达尤为重视,中老年人喜好看新闻短评,时不时会发表自己的态度和观点;年轻人喜好在微博、知乎等平台分享所见所闻。以及一些短视频社交软件的不断涌现,比如抖音、Vlog等,人们表达情感的欲望更加强烈,情绪在生活中的作用也越来越不容忽视。良好的情绪,能帮助自己更好地完成工作;消极的情绪,对身体机能有一定伤害的同时,甚至还会影响健康人格的形成。随着疫情防控常态化,人们对心理健康的关注度上升,基于此本文旨在开发一个心理健康的情感分类系统,通过文本分析使用者的心理健康情况,以帮助医生筛查抑郁症患者或者使用者了解自己的健康状况。本文在已有研究的基础上,设计了三个情感分类研究模型,并实现了一个情感分类系统实现对模型的应用。 当下,关于抑郁症情感分类的研究较少,且大多数模型采用的技术为模型融合或者多模态,忽略了文本特征的重要性,导致情感分类的精准度无法提升。为了解决这些问题,本文首先提出了三个情感分类模型:一是基于融合词级和句级特征的双向门控循环单元模型,它是CharSCNN模型的改进,分别在词级和句级使用注意力机制提取词向量特征和句向量特征,以获得更多的情感语义信息,弥补了CNN网络不能很好提取上下文语义关系的缺陷;二是基于知识蒸馏的双向长短期记忆网络模型,采用BERT作为老师模型监督学生模型(双向长短期记忆网络)学习,蒸馏技术在一定程度上压缩了学生模型,提高了模型的可移植性;三是基于焦点损失的注意力双向长短期记忆网络模型,在第二种模型基础上,采用焦点损失函数解决了情感数据抑郁样本和未抑郁样本不均衡的问题。 其次,本文使用DAIC语料库对本文设计的三种情感分类模型做了对比实验。实验证明了三个模型都能顺利完成情感分类,通过对比其他研究者在该数据集上的实验结果,其中基于焦点损失的注意力双向长短期记忆网络模型效果最优,取得精准率、召回率、F1值分别为0.78、0.81、0.80的好成绩。除此之外,本文使用的数据集是对真实人群采访获得的,能够反映在实际生活中患有抑郁症和未患有抑郁症人群的比例,基于焦点损失的Att-BiLSTM模型在心理健康数据集上精准率能够达到78%,说明其具有一定的可用性和有效性,能够用于心理健康筛查系统完成情感分类任务。 最后,本文开发并实现了心理健康情感分类系统,包括三个主要功能模块:量表测评、开放问答、报告展示。在量表测评模块,多种类型量表可供用户选择,用户以填写问卷的方式答题;在开放问答模块,用户通过与机器人对话完成问答操作,后台的模型根据用户回答的文本输出结果;在报告展示模块,用户可以在这里查看自己的量表测评报告和开放问答报告。