计算机应用研究2021,Issue(3) :689-695.DOI:10.19734/j.issn.1001-3695.2020.02.0039

基于MapReduce的并行频繁项集挖掘算法研究

Research on parallel frequent itemset mining algorithm based on MapReduce

刘卫明 张弛 毛伊敏
计算机应用研究2021,Issue(3) :689-695.DOI:10.19734/j.issn.1001-3695.2020.02.0039

基于MapReduce的并行频繁项集挖掘算法研究

Research on parallel frequent itemset mining algorithm based on MapReduce

刘卫明 1张弛 1毛伊敏1
扫码查看

作者信息

  • 1. 江西理工大学 信息工程学院,江西 赣州341099
  • 折叠

摘要

针对并行MRPrePost(parallel prepost algorithm based on MapReduce)频繁项集挖掘算法在大数据环境存在运行时间长、内存占用量大和节点负载不均衡的问题,提出一种基于DiffNodeset的并行频繁项集挖掘算法(parallel frequent itemsets mining using DiffNodeset,PFIMD).该算法首先采用一种数据结构DiffNodeset,有效地避免了N-list基数过大的问题;此外提出一种双向比较策略(2-way comparison strategy,T-wcs),以减少两个DiffNod-eset在连接过程中的无效计算,极大地降低了算法时间复杂度;最后考虑到集群负载对并行算法效率的影响,进一步提出了一种基于动态分组的负载均衡策略(load balancing strategy based on dynamic grouping,LBSBDG),该策略通过将频繁1项集F-list中的每项进行均匀分组,降低了集群中每个计算节点上PPC-Tree树的规模,进而减少了先序后序遍历PPC-Tree树所需的时间.实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果.

关键词

DiffNodeset数据结构/MapReduce/T-wcs策略/LBSBDG策略/频繁项集挖掘

引用本文复制引用

基金项目

国家自然科学基金资助项目(41562019)

国家重点研发计划资助项目(2018YFC1504705)

出版年

2021
计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
被引量5
参考文献量14
段落导航相关论文