基于社交媒体用户级文本的抑郁症检测研究

徐东东¹

扫码查看

作者信息

1. 山东中医药大学
折叠

摘要

目的:在社交媒体平台，人们可以自由地分享个人观点和表达情绪。这种自然、即时和具有大规模用户数据的特点使得利用社交媒体文本数据进行抑郁用户检测的方法逐渐受到关注。虽然目前已有许多基于社交媒体用户级文本数据进行抑郁用户检测的研究，但仍然存在一系列未被充分解决的问题。首先，在数据预处理中未能保留表达情感的标点符号和表情符号，导致文本中的情感语义信息不能得到充分利用;其次，模型一般使用Word2Vec或GloVe等静态词嵌入方法，无法捕捉不同语境中词语的含义和语义关系;最后，使用的CNN或RNN等方法因存在感受野限制或梯度消失等问题而无法对用户级长文本序列进行有效学习，且用户行为模式中存在的时间信息通常也未被合理利用。基于此，本文对数据预处理步骤做出改进，并提出两种基于用户级文本抑郁检测的高效方法。方法:（1）本文对中文和英文数据集进行了一系列必要的预处理以去除干扰信息，同时保留表达情感的标点符号和将表情符号转换为文本，以使模型能够更为充分地利用用户文本中的情感信息。（2）提出基于BERT预训练语言模型和层次注意力网络的B-HAN模型，以有效获取动态语义信息和对长文本序列进行学习。首先，本文避免将用户推文合并为长文本，而是直接利用BERT分别对每条推文进行词向量转化，以获取丰富的上下文信息;其次，在单词级别和推文级别分别进行特征学习，同时引入注意力机制进行对关键抑郁信息进行捕捉;最后，利用汇聚了全部信息的用户向量进行分类。（3）在B-HAN模型的基础上，提出融合全局时间感知机制的B-ATA模型，以充分利用发文时间信息。首先，提取和分析用户的发文时间序列，以发掘不同用户群体因不同行为模式而体现出的时间差异。其次，为用户发文时间创建全局嵌入向量并融入模型进行学习，以在全局上捕捉用户发文时间中潜在的连续性、周期性以及不同时间点的重要程度。最后，将模型预测产生的注意力权重进行可视化分析，以解释模型的预测行为。结果:本文提出的B-HAN模型在关键指标ACC和F1上均优于构建的对比模型。相较于B-HAN模型，提出的B-ATA模型在中文数据集上的ACC和F1指标分别提高了3.4％和9.82％;在英文数据集上的ACC和F1指标分别提高了1.53％和4.58％。同时，可视化结果表明，B-ATA模型能够充分利用用户推文中的文本语义、情感符号和发文时间信息对抑郁用户进行高效识别。结论:本文在中文和英文数据集上分别进行实验，结果表明，B-HAN模型结构能够适配社交媒体用户级文本数据结构，充分利用文本和感情符号信息，实现良好的性能和一定的泛化性;而改进的B-ATA模型能够额外利用用户发文时间信息，使得抑郁识别的性能进一步提升。本文提出的文本抑郁检测模型在抑郁症人群的筛查和识别中具有一定的现实价值，同时也为国内的抑郁症检测提供了新思路和方案。

关键词

抑郁症/社交媒体用户级文本/层次注意力/时间感知

引用本文复制引用

授予学位

硕士

学科专业

中医药智能化研究；医疗健康大数据

导师

曹慧

学位年度

2024

学位授予单位

山东中医药大学

语种

中文

中图分类号

R74

段落导航