首页|基于双决策树的数据采样方法

基于双决策树的数据采样方法

扫码查看
在数据挖掘问题中,一个基本假设是训练集样本与测试集样本的数据分布一致,但随着数据量逐渐增加,如何在海量数据中找出具有代表意义的数据也变得尤为困难。对现有的数据选择方法研究发现,传统的简单随机抽样和渐进抽样等数据选择方法,由于没有和数据挖掘工具进行结合,采样结果具有偶然性和不确定性,抽样数据很难保证数据挖掘的基本假设,这也使得最终模型的泛化误差较大。为了解决数据采样过程中类间的不平衡问题,提出一种基于双决策树的结构化数据采样方法。首先通过C4。5算法生成一棵决策树,借助决策树在数据源中选择适合的数据和数据采集点,同时通过使用另一棵决策树对选择出的数据集的质量进行评估来达到高效率和高质量的数据采样。实验表明,与简单随机抽样相比,新采样数据下训练的模型准确率有明显提高。
A data sampling method based on double decision tree

陈力、费洪晓、丁海伦、成琳、翟纪宇

展开 >

中南大学地球科学与信息物理学院,湖南 长沙 410075

中南大学软件学院,湖南 长沙 410075

决策树 数据采样 机器学习

国家自然科学基金中南大学2017年本科生自由探索项目中南大学2017年本科生自由探索项目

61602525201710533267ZY20170769

2019

计算机工程与科学
国防科学技术大学计算机学院

计算机工程与科学

CSTPCDCSCD北大核心
影响因子:0.787
ISSN:1007-130X
年,卷(期):2019.41(1)
  • 8
  • 26