摘要
近年来,随着互联网技术的快速发展,社交平台上的信息量爆增,给人们的生活带来了很大的变化。与此同时,也伴随着大量的谣言。谣言一旦散播开来,那么造成的危害是难以估计的,它的散播速度和广度都是相当惊人的。那么如何高效地识别谣言且尽可能地减小其造成的危害,无疑已经成为一个亟待解决的难题。鉴于此,社会各界及政府部门都采取了不同的措施,力求通过相关技术来及时、准确地识别出谣言,进而维护社会的公平和正常秩序。 作为自然语言处理中的一项重要的文本分类任务,谣言识别的意义毋庸置疑,它是不可忽略的一部分。而目前的谣言识别方法主要还是依靠人工判断,此方法既耗时耗力又效率低下,所以引起了许多研究者的关注,人们力求通过各种机器学习或深度学习模型来更高效地识别谣言。而在众多社交平台中,微博因其独特的优势成为了当今主流的舆论传播媒介,因此本文选择将微博作为进行谣言识别的平台。经过对一系列文本分类方法的研究,本文提出了一种融合深度学习模型的谣言识别方法,并证明了其高效性,进而建立了微博谣言识别系统。 (1)本文在对现有的辟谣平台进行调研的基础上,提出一种深度学习融合模型,采用目前效果较好的RoBERTa模型作为自然语言预训练模型,将微博文本转化为向量表征。采用三种大小不同的文本卷积核来学习微博文本的特征,并将这些特征最大池化拼接操作后得到对应的特征序列,然后输入到Bi-LSTM层进一步学习该序列特征,最后增加注意力机制来计算注意力分布概率,从而达到谣言识别的目的。在两种公开的微博数据集上的实验结果证明,与其它方法相比,本文所提方法对谣言的识别性能方面有了显著的提升,可以挖掘出微博文本的深层特征。 (2)在实验中验证了该深度学习融合模型的有效性之后,本文设计了一个基于此模型的微博谣言识别系统,用训练好的深度学习融合模型对微博信息进行判别,并将结果展示给用户,供用户进一步分析或使用。