计算机应用研究2021,Vol.38Issue(10) :2974-2980.DOI:10.19734/j.issn.1001-3695.2021.03.0084

改进的并行关联规则增量挖掘算法

Improved parallel association rules incremental mining algorithm

毛伊敏 邓千虎 邓小鸿 刘蔚
计算机应用研究2021,Vol.38Issue(10) :2974-2980.DOI:10.19734/j.issn.1001-3695.2021.03.0084

改进的并行关联规则增量挖掘算法

Improved parallel association rules incremental mining algorithm

毛伊敏 1邓千虎 1邓小鸿 2刘蔚2
扫码查看

作者信息

  • 1. 江西理工大学 信息工程学院,江西 赣州341000
  • 2. 江西理工大学 应用科学学院,江西 赣州341000
  • 折叠

摘要

针对大数据环境下基于Can树(canonical order tree)的增量关联规则算法存在树结构空间占用过大、频繁模式挖掘效率不佳以及MapReduce集群并行化性能不足等问题,提出了一种基于粗糙集和归并剪枝方法改进的并行关联规则增量挖掘算法MR-PARIRM(MapReduce-based parallel association rules incremental mining algo-rithm using rough set and merge pruning).首先,设计了一种基于粗糙集的相似项合并策略RS-SIM(rough set based similar item merge)对数据集的相似项进行合并处理,并根据合并后的数据进行Can树构造,从而降低树结构的空间占用;其次,提出了一种归并剪枝策略MPS(merge pruning strategy)对树结构中的传播路径进行修剪合并,通过压缩频繁模式搜索空间来加快频繁项挖掘;最后,通过动态调度策略DSS(dynamic scheduling strategy)对异构式MapReduce集群中的计算任务进行动态调度,实现了负载均衡,有效提升了集群的并行化运算能力.最终的实验仿真结果表明,MR-PARIRM在大数据环境下具有相对较好的性能表现,适用于对大规模数据进行并行化处理.

关键词

Can树/粗糙集/归并剪枝/大数据/增量挖掘

引用本文复制引用

基金项目

出版年

2021
计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
被引量5
参考文献量3
段落导航相关论文