应用于大数据环境的息熵并行关联规则增量挖掘算法研究

肖志良¹

扫码查看

作者信息

1. 佛山职业技术学院,广东佛山528137
折叠

摘要

数据挖掘是大数据环境下快速发展的新技术,关联规则技术是数据挖掘的一个主要研究方向,仍存在并行关联规则增量挖掘算法中如何降低Can-Tree结构空间占用率、计算效率不能满足需求等问题.因此,文章研究将信息熵融入关联规则算法,实验结果表明,模型对不同数据集适应性良好,可以更有效地提升加速比,缩小数据集规模的同时加快后续Can-Tree的构造,减少运算时间,并且支持度阈值小于其他两种算法;并行LZO数据压缩算法能够显著加快后续阶段的数据传输速度,从而整体减少算法运行时间.研究设计的息熵并行关联规则增量挖掘算法模型显著优于传统的Apriori等模型,并且运行速度更快,内存占用量更小,具有良好性能表现,相较于其他模型更具有优越性.

关键词

大数据/数据挖掘/关联规则/信息熵

引用本文复制引用

出版年

2023

科技经济市场

南昌市科技信息中心

科技经济市场

影响因子：0.411

ISSN：1009-3788

参考文献量4

段落导航