摘要
互联网的普及使在线评论成为人们可获取的有价值的信息资源,随着电子商务的发展,商品评论信息数量激增,这些评论中存在一些故意编造或者没有参考价值的垃圾评论。检测垃圾评论的传统研究大都基于评论文本本身进行,这种做法没有综合考虑评论者特征导致识别准确率较低,因此本文提出一种融入全局-局部注意力机制,基于神经网络的融合多特征的垃圾评论识别方法。 本文使用Yelp酒店评论数据集进行实验,提出的模型融合评论文本特征和评论者特征进行垃圾评论识别,达到将垃圾评论与真实评论有效分类的目的。首先,对于评论文本进行文本表示,由于传统的词嵌入方式存在一词多义问题导致无法获取文本准确的语义信息,本文使用BERT预训练语言模型,该模型的训练中包含了文本的位置和序列信息,使用双向Transformer编码器获取文本的语义特征,通过训练得到评论文本的表示矩阵。然后对于上一步获得的矩阵,为了忽略文本中的噪音与不相关的词汇,获取哪些词在全局范围内更具有信息性,捕获文本的全局特征,利用全局注意力机制为词赋予相应的权重,全局注意力机制在计算每一步上下文向量时,需要考虑编码器所有位置的状态量,考虑编码器每一个隐藏状态,得到文本在全局注意力上的特征表示矩阵;为了获取局部范围内哪些词更具有信息性,利用局部注意力机制为词赋予相应的权重,与全局注意力机制不同的是,这里需要利用一个上下文窗口,当该词在窗口的中间位置时,只考虑前后一定范围内的隐藏状态,注意力值越高代表该词具有越高的信息性,这样得到文本在局部注意力上的特征表示矩阵;将这两个矩阵分别利用三种不同尺寸的卷积核提取特征,再使用最大池化策略缩减矩阵,获取文本表示中最显著的特征,这样获得了两个新的矩阵。对于评论者特征,将其组成一维向量,再进行归一化操作,之后经过三个全连接层,然后将其与上一步获得的两个特征表示矩阵在同一个维度上连结,构成一个融合多特征的新向量,再经过三个全连接层,最后一个全连接层使用Sigmoid激活函数完成最终的分类任务。 本文模型将评论文本和评论者特征融合,综合考虑二者对垃圾评论识别的影响,在文本训练方面使用BERT预训练语言模型获取文本更加准确的文本表示,并利用全局-局部注意力机制区分词的重要程度。通过在Yelp酒店评论数据集上与传统的卷积神经网络模型和一些较新的模型对比,本文模型垃圾识别性能有一定的提升,准确率、精确率、召回率和F1值分别达到了90.24%、90.54%、89.16%和89.84%,并进行消融实验,实验结果符合预期,证明了本文模型设计的有效性。