摘要
随着网络和社交媒体的迅猛发展,人们获取信息的方式越来越多元化。与此同时,这也为虚假新闻的传播提供了便利。虚假新闻会对政治、经济、文化或其他领域造成极大的危害,因此构建一种有效的自动虚假新闻检测模型迫在眉睫。随着深度学习在各行各业的广泛应用,研究者们不断提出基于深度学习的虚假新闻检测方法,虚假新闻检测已成为自然语言处理领域的研究热点之一。本文的研究主要聚焦于使用新闻环境和常识信息作为外部证据的检测方法。其中新闻环境分为宏观和微观两个范围,宏观环境是指待检测新闻发布之前的若干天内所有新闻的集合,微观环境是宏观环境中与待检测新闻相关的新闻构成的集合。常识信息包括一般性的事实、常见的规律、普遍的认知等,能够提供额外的背景知识和先验信息。 (1)新闻环境感知模型NEP(NewsEnvironmentPerception)中通过使用待检测新闻的文档嵌入在宏观、微观环境中进行信息感知来检测虚假新闻,本文认为文档嵌入代表了新闻文本的全局信息,NEP没有将新闻文本的层级信息与新闻环境的范围性特征进行匹配。受分层注意力网络HAN(HierarchicalAttentionNetwork)的启发,本文将新闻文本的句子级和文档级信息分别与微观和宏观环境进行匹配,提出一种改进的新闻环境感知模型NEHAP(NewsEnvironmentHierarchicalAttentionPerception)。该模型从新闻文本的句子级对微观新闻环境进行感知,然后融合句子级信息与微观环境感知信息得到文档级信息,对宏观新闻环境进行感知。实验结果表明,NEHAP模型的虚假新闻检测结果在准确率和F1值上均有一定的提升。 (2)虚假新闻通常会断章取义、夸大歪曲事实,这些事实往往与常识信息相违背,因此本文使用常识信息作为另外一种外部证据来进行虚假新闻检测。首先,受KAHAN(Knowledge-AwareHierarchicalAttentionNetwork)的启发,本文从知识图谱中检索出新闻中的相关实体,将这些实体作为常识信息,提出了一种分别从文本角度和话题角度对常识信息进行感知的虚假新闻检测模型KIA(Knowledge-mIcroEnvAwareattentionnetwork)。其中话题信息来源于微观新闻,微观新闻环境是与待检测新闻相似的新闻集合,代表了待检测新闻所属的话题,其覆盖了更加广泛的实体,相对于文本能够从更宏观的角度来感知实体信息。KIA使用Transformer的编码器提取新闻、实体和微观环境中的语义信息。由于实体的重要程度不同,KIA使用注意力机制分别从文本角度和话题角度衡量不同实体的重要性。KIA最终将新闻语义信息与实体感知信息进行拼接,并通过SoftMax层输出检测结果。实验结果证明,常识信息是一种有效的外部证据。最后,本文综合考虑新闻语义、常识和新闻环境信息,构建出一种基于NEHAP和KIA变体的模型KEA(Knowledge-EnvironmentAwareattentionnetwork)。实验结果证明了KEA模型提取新闻环境、常识信息的有效性,以及融合外部知识对于虚假新闻检测的可行性。