摘要
在互联网的浪潮中,人们对网络的依赖日益增加,社交媒体也随之快速发展,凭借其海量的信息和高效的传播速度为人们生活带来了巨大的影响。在社交媒体上,用户是主体,内容是信息传播的载体,用户的身份信息在一定程度上代表着其发布内容的可信度。但是,随着社交平台上用户数量与信息规模的增加,谣言问题也日趋严峻,这些谣言的产生与传播离不开异常用户的推波助澜,为社交平台的可用性和安全性带来了巨大的负面影响,造成了很多严重的后果。针对日趋严重的谣言问题,需要探索谣言与异常用户之间的关联,并自动检测谣言,降低谣言肆意传播所造成的危害。用户的社交属性对于异常用户检测具有极大的参考价值,引入用户社交属性进行异常用户识别与谣言检测具有重大的应用价值。 本文对用户的社交属性进行了深度挖掘,通过发现异常用户进而设计和开发谣言检测模型;继而,考虑到异常用户识别技术对用户身份可能带来的误判,会在谣言检测任务中放大或忽略某些用户的作用,由此引入帖子的其他上下文信息,使用全部用户的社交属性,基于用户社交属性设计谣言检测模型。具体研究内容包括: (1)为了解决谣言检测中对异常用户特征挖掘不充分的问题,提出基于用户标签权重与内容的谣言检测模型RDTE。模型主要包含用户表征、内容表征和集成分类三部分。首先,基于转发关系构建传播网络,利用异常用户识别算法和度中心性,得到所有用户的标签权重向量,其中,异常用户和传播关键节点具有较大的权重。然后,使用标签权重向量为用户社交属性矩阵赋权,引入图注意力神经网络,得到包含结构信息的用户社交属性表征。同时,使用多头自注意力机制对帖子内容的词表征矩阵进行处理,以最大程度的学习内容包含的语义信息,得到帖子内容表征。最后,使用集成学习融合两个表征的分类结果,完成帖子的检测。 (2)为了解决谣言检测中传播网络存在较多无意义转发以及误判异常用户而带来噪声的问题,提出基于用户传播网络与内容融合的谣言检测模型GMB_GMU。首先,以用户社交属性代替转发内容作为节点,以传播链为边构建用户传播网络,以图注意力神经网络学习用户特征,得到增强的用户社交属性表征,避免了用户身份误判带来的噪声;同时,基于此用户传播网络,利用节点表征算法学习传播网络的结构特征,并使用互注意机制对结构特征进行扩展;另外,引入BERT建立帖子内容表征;最后,利用多模态门控单元对用户社交属性表征、结构表征和帖子内容表征进行融合选择,基于该融合表征对帖子进行检测。 本文在真实世界的微博数据集上进行了充分的实验,包含谣言分类实验、早期检测实验和消融实验,将PPC_RNN+CNN、BiGCN、TD-RvNN等谣言检测模型作为基准模型,采用准确率、精确率、召回率和F1值作为评价指标。实验结果表明,本文提出的模型在真实数据集下的检测性能优于基准模型,可以更加精准、有效地区分谣言与非谣言,并在谣言的早期传播阶段将其检测出来。