首页|基于电商在线评论的文本情感倾向性分析

基于电商在线评论的文本情感倾向性分析

王玉

基于电商在线评论的文本情感倾向性分析

王玉1
扫码查看

作者信息

  • 1. 重庆理工大学
  • 折叠

摘要

随着互联网的普及和移动支付的快速发展,网上购物成为人们生活中不可或缺的一部分,随着商品销量不断增长,同时增长的还有消费者评论。消费者在商品评论系统中留下自己的体验与感受,成为商家了解消费者,消费者了解其他消费者的重要窗口,评论数据分析因此具有非常重要的现实意义。目前关于文本情感倾向性分析的研究大多数基于有标签的数据,基于无标签文本数据的研究较少。本文基于挖掘的电商用户评论数据分别研究了有标签数据和无标签数据的情感倾向性分析方法,并继续对这两类文本做了评论特征分析,研究具有重要的理论和实际意义。 本文以京东商城的婴儿奶嘴评论文本数据为研究对象,利用Python分别爬取了有标签的奶嘴评论数据和无标签的奶嘴综合评论数据作为分析语料,对数据进行清洗、分词、去停用词等预处理操作后对文本的情感倾向做了分类。 对有标签的数据,本文先采用构建情感词典的方法对其进行情感分类,获得了对应的分类效果,然后运用了三种文本特征提取方法—TF-IDF,Word2vec以及TF-IDF加权的Word2vec训练特征向量,并将三种方法获得的特征向量划分训练集和测试集用以训练随机森林、支持向量机和逻辑回归三种机器学习分类器,按照查准率、召回率、F1值三个指标对几种分类方法的效果做了对比分析,根据实验结果得到最优的特征提取方法和分类器的组合为TF-IDF加权的Word2vec与支持向量机。 对无标签的数据,本文基于有标签的婴儿奶嘴数据构建好的词典和分类器给出了情感倾向标签预测,并介绍了如何确定其情感倾向的方法,为无标签数据的情感倾向性研究提供了思路。 然后通过可视化技术继续对有标签的婴儿奶嘴评论数据的总体特征做了呈现,并根据评论数据的正面评价和负面评价分别建立LDA主题模型,进一步挖掘出商品的优势和劣势以及消费者在给出正面评价和负面评价时最关注的商品特征,结论是消费者对婴儿奶嘴的材质、外观、质量、清洗难度和使用等方面给予了肯定,但对商品的外包装、物流、服务以及是否正品方面给予了否定。对无标签的评论数据,仍利用LDA方法对其进行主题聚类得到五类聚类结果并分析。 最后根据总体的文本特征分析结果,为销售商家和消费者分别提出了可行性建议。

关键词

电商产品评论/情感分类/文本分析/机器学习/LDA主题模型

引用本文复制引用

授予学位

硕士

学科专业

应用统计

导师

邱世芳/康清蓉

学位年度

2022

学位授予单位

重庆理工大学

语种

中文

中图分类号

TP
段落导航相关论文