首页|基于特征选择的多维度数据预测与分类方法研究

基于特征选择的多维度数据预测与分类方法研究

赵鹏程

基于特征选择的多维度数据预测与分类方法研究

赵鹏程1
扫码查看

作者信息

  • 1. 河南科技大学
  • 折叠

摘要

当前,随着人们对信息时代知识的深入了解,大数据、物联网以及云计算等新兴术发展带来了巨大的研究机遇。而复杂系统下,多维度数据的预测与分类在数据挖掘技术领域下受到研究者们的广泛关注。并且在众多产业技术领域,例如,在共享数据经济、生物学信息分析、能源化工分析、以及电子商务用户行为分析等均得到普遍的应用。一方面,面对各个领域内日益增长的数据信息,其中蕴含着极其丰富的知识和决策类信息。在多维度数据集中进行更加有效和充分地提取有价值的可支配信息是当前研究中的一个挑战。另一方面,为了能够对不同结构的多维度数据进行归纳和整理,并从中进行知识发现,机器学习与数据挖掘技术逐渐成为新兴信息技术。如今,所获得的数据在结构和格式上越来越精细和复杂,其中所包含的信息也越来越冗杂。在应用实践的需求推动下,对多维度数据进行预测和分类迅速成为数据挖掘技术中的研究热点。当前的多维度数据预测与分类算法特征选择方式,以特征工程为基础,针对相关缺陷提出一系列改进措施,经过实验证明完成后的算法理论具有一定的显著效果。主要研究内容如下所列: 1.提出结合相关性系数的随机森林预测算法。通过改进森林的特征选择方式,对复杂系统下的多维度数据中的特征进行相关性评估,然后根据相关性系数数值划分区间,将具有强相关性的特征和共线性的数据噪音剔除。增加了森林中决策树间的差异性,增强了森林的整体的泛化能力。通过共享单车需求量实验验证提升了算法预测精度并解决了产生的过拟合问题。 2.提出了基于因子分析的动态时间弯曲相似性降维法。在高时间复杂度的序列中相似性,通常采用动态时间弯曲及下界函数进行距离度量。但是算法计算过程效率较低,且度量质量较差。鉴于此,将因子分析与动态时间弯曲下界函数进行结合,通过其进行降维转换协方差矩阵和距离矩阵,并推导出具有对称性的下界函数,改进算法的特征选择方式,构建时序预测模型。最终,通过实际空气质量和电力负荷数据完成算法的可行性和有效性验证。 3.提出了结合互信息的因子分析分类方法。因子分析在多维度数据中为常见的降维方法,该方法仅可以处理线性数据关系,为评估特征间依赖性的强弱。互信息则具有良好的非线性处理能力。采用互信息对特征间的相关性进行计算,将特征相关性结果进行转换为特征值矩阵评估因子,作为输入信息。通过分类算法构建分类模型。利用癌症基因组数据完成实验验证,该方法提高了算法的分类性能,取得一定的效果。 通过以上三个内容的数学推论和实验可知,本文在多维度数据预测与分类上对特征选择进行改进和结合,提高了原本算法的预测精度和分类强度。本文的改进的算法内容具有广泛的应用价值,对其他研究者有一定的理论借鉴意义。

关键词

多维度数据/特征选择/随机森林/相关性系数/动态时间弯曲/相似性降维

引用本文复制引用

授予学位

硕士

学科专业

软件工程;软件工程理论与方法

导师

孙士保

学位年度

2020

学位授予单位

河南科技大学

语种

中文

中图分类号

TP
段落导航相关论文