摘要
自媒体时代,互联网用户均可以成为新闻信息的发布者和传播者,假新闻的传播变得更为广泛和迅速,这也给新闻聚合平台的内容审核工作带来了挑战。自媒体发布了大量快讯、头条等表达简短扼要的短文本新闻,未经权威机构鉴别,真实性无法保证。互联网用户盲目地发布和转发,不仅会给新闻相关的人物和社会大众带来困扰,而且会降低新闻聚合平台的社会公信力。由于平台审核新闻数量庞大,并且短文本新闻审核需要更多知识,人工审核方法效率低下,无法遏制假新闻在平台上的泛滥。因此,利用智能检测方法识别虚假短文本新闻已成为亟需解决的问题。 现有短文本新闻虚假检测研究在提取上下文语义特征时存在以下问题:第一,短文本新闻语义特征稀疏、上下文联系弱、词表达易产生歧义,导致检测准确率低;第二,短文本新闻虚假检测中未区分不同特征的重要性;第三,现有技术使用新闻主题词等外部知识增强短文本新闻的上下文语义,但忽略了两者之间的同源关联性;第四,现有短文本数据集不均衡问题显著。 为解决上述问题,本文提出基于图注意力网络和外部知识的短文本新闻虚假检测方法,设计并研发了新闻虚假检测系统,旨在为新闻聚合平台审核者提供一种内容自动化审核的方法。本文主要贡献如下: (1)基于图注意力网络的短文本新闻虚假检测模型(Short Text News Fake Detection Model Base on Graph Attention Network,简称GAN-ST)。首先,该方法构建了一种新闻信息异构网络(News Heterogeneous Information Network,简称N-HIN),使用图结构建立新闻主题、实体、作者等多种文本附加特征间的联系,丰富短文本新闻自身语义并增强上下文联系。然后,将新闻实体词映射到维基百科,与维基实体集合比对,消除新闻实体词歧义问题。最后,使用双注意力机制捕获图网络中相邻节点的重要性,降低噪声节点的权重,筛选新闻关键特征。 (2)外部知识与内部上下文语义聚合的短文本新闻虚假检测模型(Short Text News Fake Detection Model Base on Aggregating External Knowledge and Internal Contextual Semantics,简称EKCS-ST)。首先,构建了新闻特征信息网络,包含新闻主题、作者、实体三种外部知识,通过图卷积操作提取特征并通过隐藏层处理为新闻信息表示,生成新闻的外部知识图特征。然后,将新闻文本输入包含12层Transformer结构的文本编码器,使用多头注意力机制捕获新闻内部上下文语义特征。最后,将两种特征的tensor数 据处理为相同维度,进行上下文感知计算,聚合外部知识图特征和内部上下文语义特征。模型中使用注意力机制,筛选和加强新闻关键特征,并且通过计算模型预测值的平衡量,调高少数类新闻的损失误差,缓解数据不均衡问题。 (3)本文设计实现了新闻虚假检测系统,该系统使用GAN-ST模型和EKCS-ST模型作为假新闻检测方法,在检测新闻真假时向新闻聚合平台审核员提供推断依据,辅助新闻聚合平台审核员筛选查询的新闻内容、收藏新闻信息。 本文使用多项评价指标验证方法的有效性,构建了多特征的新闻信息图网络,通过引入外部知识来解决短文本新闻语义稀疏问题,聚合新闻外部知识与内部上下文语义特征,筛选和加强新闻关键特征。本文方法实验结果,检测F1值为0.86,比BERT、TextGCN等模型分别高18%、17%。