软件(电子版)2020,Issue(1) :194-196.

基于分词技术的数据财富问题的求解

赵锦峰 林金玉 漆楚
软件(电子版)2020,Issue(1) :194-196.

基于分词技术的数据财富问题的求解

赵锦峰 1林金玉 1漆楚1
扫码查看

作者信息

  • 1. 重庆西南大学 402460
  • 折叠

摘要

随着互联网的普及,网购逐渐成为一种新型的购物形式.而用户在线评论和评级在网络口碑中的地位愈来愈重要.本文基于对阳光公司提供的三种产品的数据信息的挖掘,分析了星级,评论之间的相互关系.首先,针对第一问,我们对数据进行预处理,剔除了冗余数据,补全了缺失数据,进行数据清洗.然后,我们对文本进行了关键词提取,运用python语言的分词技术统计得到了词条数量,与改进后TFIDF算法相结合提取关键词.针对第二问,通过对关键词的提取,我们分析得出了问题二的解决方案.我们可以得知顾客在购买产品时通常都较为在乎产品的使用寿命、产品本身的质量,之前的购买体验等方面.针对第三问,我们基于极性词典,对文本数据进行处理,挖掘时间节点前的评论与后续评级之间的关系,然后根据数据之间的关系,建立多元回归模型,对数据进行相关性分析.确定我们的模型是一种可行且合理的模型,具有技术和数据支持,可以为阳光公司产品分析得出正确的结论.

关键词

数据挖掘/分词和词频统计/python/多元回归模型

引用本文复制引用

出版年

2020
软件(电子版)
中国电子学会 天津电子学会

软件(电子版)

影响因子:0.028
ISSN:1003-6970
参考文献量3
段落导航相关论文