摘要
抑郁症已经成为了一种常见的精神障碍疾病,且在全球范围内呈逐年增长态势。抑郁症通常表现为持续性低水平自我效能感、对爱好丧失兴趣、甚至引起自杀的想法,从而导致人们在情绪和身体上出现许多健康问题,进而影响人们的正常生活和工作。因此,抑郁症在给越来越多人带来身心健康上的影响的同时,也进一步降低了社会生产效率,增加了社会的经济负担。所以,抑郁症辅助诊断技术研究对于及时有效地检测出抑郁症患者具有重要意义。近年来,随着机器学习和深度学习技术的发展,利用特征工程以及深度神经网络对从抑郁症患者中采集的不同模态数据进行建模有了初步的探索。在不同模态例如语音、文本、视频等数据中,语音因为其具有易获得性和有效性而被认为是一种辅助抑郁症诊断可靠的模态。然而,抑郁症语音数据集通常具有冗长的特点,不同语音学特征存在维度不一致的问题,难以从不同语音特征中挖掘潜藏的判别性特征。而且语音本身仍存在一定的局限性,如何利用多模态信息的互补性进一步增强对抑郁辅助诊断的能力,也具有重要研究意义。本文针对上述问题,开展了以下研究内容: 1、提出了基于语音回答层建模的层级多特征融合模型。该模型针对抑郁症语音数据冗余性和不同语音学特征维度不一致的问题,提出从回答层上建模,基于卷积神经网络设计层级网络结构来挖掘潜藏判别性特征,结合注意力机制分别在片段内多特征以及片段间进行特征融合,不仅可以对不同的语音学特征学习出不同的重要性进行融合,还可以学习出不同语音片段的不同重要性,进行二次融合,从而得到鲁棒的判别性特征表示。该方法改善了相关方法直接对全局数据建模导致的模型过大问题,或者是在简单等长分割片段上建模无法对每个样本进行表示的问题,在模型大小和样本数据利用上取得了一定的平衡。在公开数据集上的实验结果表明,该模型取得了较为精准的分类效果,多特征的融合也增强了模型对于原始语音数据中存在噪声情况下的鲁棒性。 2、提出了情感分布引导下基于预训练模型的多模态融合建模。该方法针对多模态融合问题,提出基于预训练模型挖掘语音特征的同时,利用注意力机制融合了文本特征从而增强特征表示。并且进一步利用数据情感分布信息,设计了情感引导的数据重组以及情感编码,从而在模型输入层和决策层融合情感分布信息。在公开数据集上的实验结果表明,引入情感信息构建多模态融合模型有助于提升对抑郁障碍的检测能力,获得较为精确的辅助分类以及回归结果。