摘要
电商平台中真实可信的用户评论可以帮助消费者做出正确的消费决策。然而,受不同动因驱使,电商平台中也充斥着大量虚假评论。虚假评论不仅会误导用户的消费决策,同时也会对商家及电商平台造成消极的影响。在此背景下,虚假评论的检测与治理对监督网站运营、净化网络环境具有重要的意义。本文基于深度学习技术对虚假评论检测方法展开研究。为实现对虚假评论的准确、高效检测,从评论间相似性与评论文本情感两种角度出发,提出两种虚假评论检测方法。在此基础上,利用上述两种方法中提取的蕴含评论间相似性和评论情感强度的特征,提出了一种基于多线索的虚假评论检测方法,并设计实现了一个可对评论进行自动采集及虚假评论检测的系统。主要内容如下: (1)提出一种基于图卷积网络的虚假评论检测方法。虚假评论间通常会有高度相似的内容,但是现有的基于深度学习的虚假评论检测方法,通常对每条评论单独提取文本特征而未充分考虑评论间的相似性。本文利用不同评论中词汇的语义相似性间接衡量评论间相似性,并基于图卷积网络进行虚假评论检测。首先,基于词汇语义相似性构建评论文本图,将虚假评论检测问题转化为节点分类问题。其次,利用图卷积网络聚合相邻节点的邻域信息,深入挖掘评论间的相似性关系,获取包含评论间相似性的特征向量进行虚假评论检测。在虚假评论检测通用数据集上,与CNN、LSTM、TextGCN等模型相比,该方法将准确率分别提升了7%、4.8%与1.3%。 (2)提出一种融合情感特征的虚假评论检测方法。为了达到鼓吹宣传的效果,虚假评论表现的情感通常比较强烈,但是现有的基于情感特征的虚假评论检测方法大多仅对评论中的情感词进行简单的统计计数,忽略了不同情感词有程度差别的重要属性。为此,提出一种新的融合情感特征的虚假评论检测方法。该方法首先基于评论文本构建情感词典,综合考虑情感词的不同形式及情感词与程度副词的依赖关系,对评论文本表达的情感更加准确地量化描述;然后,将情感特征与文本内容特征融合,结合Transformer模型实现虚假评论检测。在Amazon数据集上,与LSTM模型相比,该方法在提高检测效率的同时,将准确率提升了0.59%。 (3)考虑到一条虚假评论可能同时具有上述两方面特征,将上述两种方法中提取到的蕴含评论间相似性与评论情感强度的特征进行融合,设计了基于多线索的虚假评论检测方法,并基于该方法设计并实现虚假评论在线检测系统。系统分为服务端与客户端两个模块。服务端主要实现评论数据的采集、基于多线索的虚假评论检测模型训练以及评论的在线检测等核心功能;客户端主要实现评论检测任务管理及评论检测结果的展示。在Amazon数据集上,基于多线索的检测准确率与单独使用上述两种方法相比分别提升3.24%与1.14%。实验结果表明融合评论间相似性和情感强度两方面特征具有有效性。同时,利用大众点评网站的评论数据验证了该系统可以实现评论的自动采集和虚假评论的在线检测。