摘要
近些年来,互联网相关技术飞速发展,自媒体平台如雨后春笋般迅速崛起。自媒体平台也成为网民生活中不可或缺的一部分,用户数量以指数级飞速增长,伴随着新冠疫情的爆发,自媒体平台所传播的信息己然成为了一个巨大的疫情数据库,但随之而来的是网络中夹杂着各种各样的不实信息在人群中肆意传播,给人们造成了极大的困扰,严重影响到社会的安全与稳定。 对社交媒体网站的谣言信息进行自动化的谣言识别己然成为一项重要课题。本文旨在没有结构规则的新闻文本中,对新闻文本进行数据清洗、标注,进而得到结构化数据,并构建新冠疫情谣言数据集。通过对该数据集的特征提取,构建用户模型和可变长度时间序列模型,并依此判断该“谣言”文本是否为谣言。本文还将文本分类方法与谣言的传播模式相结合,尝试在谣言检测任务中得到更大的突破。 本文的主要工作是通过深度学习方法从大量的新冠疫情“谣言”文本中挖掘隐藏特征,并建立一种时间序列模型,该模型不仅可以利用文本的内容信息、用户信息还会充分利用文本的传播模式,本论文的主要贡献如下: (1)深度挖掘博文文本信息和用户评论信息,建立用户评论模型,以用户对该新闻的态度作为检测新闻文本是否属于谣言的重要依据。 (2)提出可变长度时间序列模型,对已有谣言数据集进行主题抽取,并依据时间序列标注方法生成时间标记,然后进行基于博文文本内容、用户特征以及传播特征的数据提取,最终验证可变长度时间序列模型对于谣言检测的实用性。 (3)人机协同谣言检测系统的设计,用以辅助个人对谣言文本的采集、数据的手动标注以及通过嵌入谣言检测算法对文本进行自动化标注。