首页|在线社会网络中的谣言检测方法研究

在线社会网络中的谣言检测方法研究

冉宏艳

在线社会网络中的谣言检测方法研究

冉宏艳1
扫码查看

作者信息

  • 1. 北京交通大学
  • 折叠

摘要

近年来,在线社会网络已成为一个被广泛使用、大规模的实时信息交流和传播平台,是大众意识形态表达、知识传播和情感分享的新型开放媒介。相对于传统媒体,在线社会网络具有用户数众、信息传播快、信息量大、影响广的特点。但是,在线社会网络的开放性和便利性也为谣言等虚假信息的产生提供了温床,这些虚假信息的产生和快速广泛传播,极大地影响了社会的安定和人民的生活。快速有效地自动检测出在线社会网络中的谣言等虚假信息已成为在线社会网络平台及国家安全部门舆情监控的主要任务。 随着深度学习的快速发展,基于深度学习的谣言检测方法是当今谣言检测最有效的方法。然而,现有的方法在不同的应用场景中面临着不同挑战。首先,现有方法难以有效的聚合多源异构信息,且对已学习事件主题敏感。其次,谣言常伴随着新事件的产生而产生,已有的历史事件上的谣言检测方法在新事件样本不足条件下难以有效进行谣言判定。另外,不同的谣言事件存在跨时空、跨域传播等特点,现有的谣言检测方法跨时空、跨域知识迁移的能力有限。针对上述问题,本文从谣言数据的特性出发,基于谣言的传播结构(即用户对谣言的群体观点)对谣言具有强有效判定作用这一原则,研究了基于谣言传播结构的多源关系和异构信息融合的谣言检测方法,小样本跨事件谣言检测方法,以及无监督跨域谣言检测方法。本文的研究工作和取得的成果主要包括: (1)针对多源异构信息融合问题,提出了一种基于多通道图注意力与事件共享机制的谣言检测方法。 该方法主要针对现有方法对于能够反映谣言真假特性的谣言传播结构在多源关系和异构信息融合方法中建模不足的问题,构建了源推文-回复推文-词-用户多源关系异构图来刻画用户和推文的关系、推文传播结构语义关系等。通过将该异构图分解为源推文-回复推文子图、源推文-词子图和源推文-用户子图充分建模三通道子图中隐含的谣言语义信息和传播模式。另外,该方法包含了事件共享模块以降低模型对事件主题的敏感性,进而增强了模型的泛化能力。在两个公开谣言数据集上的大量实验结果表明:该多源异构信息融合的谣言检测方法性能显著优于其它多源异构信息融合方法。 (2)针对小样本跨事件谣言检测问题,提出了一种基于度量学习的小样本跨事件谣言检测方法和一种谣言类分布校准的生成式小样本跨事件谣言检测方法。 已有研究和实验都表明:现有的基于传播结构学习的谣言检测模型虽然在可见事件性能优良,但在不可见事件上的检测性较低。因此,本文将小样本度量学习方法引入小样本跨事件谣言检测,提出了一种两阶段模型谣言检测框架。该框架包含基分类器预训练阶段和元训练阶段,其中基分类器预训练阶段确保特征提取器有良好的特征学习能力,元训练阶段利用度量学习方法通过小样本训练任务学习基事件中可迁移的知识。在公开的两个事件级数据集上实验结果证明,利用该小样本学习方法可以显著提升基于传播结构的谣言检测模型跨事件小样本迁移的能力。 虽然小样本度量学习方法可以借助原事件谣言类别(或类别实例)之间的距离迁移学习新事件谣言类别(或类别实例)之间的距离,提升了小样本新事件谣言检测的性能。但新事件样本量小的问题仍然限制了模型的泛化能力。为了弥补新事件样本缺乏的问题,本文提出了一种基于小样本元学习的分布校准策略。该方法利用基(历史)事件深度表征的类别统计特征去校准具有少量标记样本的新事件的深度表征的类分布,然后生成大量的与新事件相关的深度表征样本训练分类器,进一步提升了跨事件谣言检测模型的泛化性能。实验结果表明:该方法可以有效地捕获事件的不变特征,使得学习的模型能够有效判定新事件中的谣言。 (3)针对跨域无监督谣言检测问题,提出了一种基于对比学习和交叉注意力机制的无监督跨域谣言检测方法和一种标签感知增强的无监督跨域谣言检测方法。 现有的基于谣言传播结构学习的谣言检测方法一般在域内学习谣言表征,并针对域内数据进行谣言检测。但是,现实世界中的谣言常跨域传播,并且在新域常常面临着无标注数据可学习的现象。因此,本文提出了一种基于对比学习和交叉注意力机制的无监督跨域谣言检测方法。该方法包括实例对比学习和原型对比学习两种学习策略,以迫使源域和目标域之间的同类样本实现特征对齐。并且,本文为源域和目标域样本对引入交叉注意力机制学习域不变表示来减小源域和目标域之间的域偏移问题。在四个公开的跨域谣言数据集上实验结果证明:该方法能够通过拉近同类样本的距离和推远不同类别样本之间的距离来缓解域偏移问题。 在现实世界中,存在一些样本其标签不能被硬性地被划分类为某一类的现象,并且硬划分的类别标签可能会影响学习模型的鲁棒性。因此,本文进一步提出了一种标签感知增强的无监督跨域谣言检测方法。该方法利用标签感知学习模块计算样本和标签之间的相似度来捕获标签之间的重叠语义,并生成估计标签分布来取代原始独热码标签向量。同时,本文利用标签表示指导域间同类样本距离最小化和不同类样本距离最大化,增强模型域不变特征的学习。实验结果证明:该方法可以有效反应域间同类样本之间的一致性,进一步缓解了模型的域偏移问题。

关键词

谣言检测/多源异构信息融合/在线社会网络/无监督跨域/标签感知学习

引用本文复制引用

授予学位

博士

学科专业

计算机科学与技术

导师

贾彩燕

学位年度

2023

学位授予单位

北京交通大学

语种

中文

中图分类号

TP
段落导航相关论文