计算机技术与发展2020,Vol.30Issue(5) :38-42.

基于Spark框架的改进协同过滤算法

Improved Collaborative Filtering Algorithm Based on Spark

邹红旭 潘冠华 李吟
计算机技术与发展2020,Vol.30Issue(5) :38-42.

基于Spark框架的改进协同过滤算法

Improved Collaborative Filtering Algorithm Based on Spark

邹红旭 1潘冠华 1李吟1
扫码查看

作者信息

  • 1. 江苏自动化研究所,江苏 连云港 222006
  • 折叠

摘要

随着互联网数据量的不断膨胀,单机已经无法在可接受的时间范围内计算完基于大规模数据的推荐算法,也无法存放海量的数据.利用Spark平台内存计算的优点,设计了一种分布式的基于项目的协同过滤算法,利用Spark提供的RDD(resilient distributed dataset)算子完成算法的设计.针对由于数据稀疏而导致的相似度计算不准确的问题,提出了一种利用两项目间公共用户数目进行加权的相似度计算公式,提高了最终推荐结果的准确度.为了改善计算中涉及到的数据表等值连接操作耗时太长的问题,利用自定义的Hash_join函数替代Spark自带的连接操作算子,提高了计算效率.采用UCI的公用数据集MovieLens对算法进行测试,并分别与改进前的算法以及单机运行的算法进行对比,结果表明,改进的算法在准确度和效率方面都有更好的表现.

关键词

协同过滤/Spark/稀疏数/相似度计/等值连接

引用本文复制引用

基金项目

国家自然科学基金(61773384)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量8
段落导航相关论文