摘要
随着互联网的普及,网购逐渐成为一种新型的购物形式.而用户在线评论和评级在网络口碑中的地位愈来愈重要.本文基于对阳光公司提供的三种产品的数据信息的挖掘,分析了星级,评论之间的相互关系.首先,针对第一问,我们对数据进行预处理,剔除了冗余数据,补全了缺失数据,进行数据清洗.然后,我们对文本进行了关键词提取,运用python语言的分词技术统计得到了词条数量,与改进后TFIDF算法相结合提取关键词.针对第二问,通过对关键词的提取,我们分析得出了问题二的解决方案.我们可以得知顾客在购买产品时通常都较为在乎产品的使用寿命、产品本身的质量,之前的购买体验等方面.针对第三问,我们基于极性词典,对文本数据进行处理,挖掘时间节点前的评论与后续评级之间的关系,然后根据数据之间的关系,建立多元回归模型,对数据进行相关性分析.确定我们的模型是一种可行且合理的模型,具有技术和数据支持,可以为阳光公司产品分析得出正确的结论.