国家学术搜索
登录
注册
中文
EN
首页
|
基于多重插补的稀疏函数型数据修复方法研究
基于多重插补的稀疏函数型数据修复方法研究
引用
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
NETL
中文摘要:
大数据时代,随着科学技术的进步和数据收集储存能力的提升,数据结构变得复杂、形式变得多样。传统的结构化数据已经从简单的点数据扩展到区间数据、符号数据和函数型数据等。函数型数据是一类复杂的非线性结构数据,往往以函数(曲线)的形式呈现和储存。由于数据收集过程中,经常会出现数据缺失的情况,因此,针对缺失数据插补方法的研究成为国内外学者关注的重点。然而现有的传统插补方法并不适用于函数型数据,在数据修复过程中并没有考虑函数型数据的潜在信息。为了解决上述问题,本文首先引入类信息挖掘数据之间的相关性,提出一种融合类信息的函数型多重插补方法(MissforestCombiningClassInformationandPACE,CMFP)。同时,整合数据的横截面信息和纵向信息来推测缺失数据,提出一种基于横截面和纵向信息的函数型多重插补方法(MissforestCombiningGaussianProcesses,MFGP)。本文的主要研究内容包括以下两部分: (1)提出一种融合类信息的函数型多重插补方法(CMFP)。在函数型数据分析框架下,以缺失森林模型MF为基础,采用基于条件期望主成分分析的函数型插补方法PACE进行初始插补,并通过K-means聚类借助样本之间的相关性,给出了一种融合类信息的函数型多重插补方法。模拟数据插补实验结果表明,在不同缺失比例(5%~55%)下,该方法相较于Hot.deck、均值插补、MF、PACE等7种插补方法,能够保证插补的准确性和有效性。同时,针对股票数据的实例应用验证了该方法插补得到的数据符合实际情况和规律。 (2)提出一种基于横截面和纵向信息的函数型多重插补方法(MFGP)。将基于缺失森林模型MF的插补与基于高斯过程GP的预测相结合,有效整合函数型数据的横截面和纵向信息,进而提高插补精度。首先,应用MF对平面数据进行横截面插补。其次,利用GP进行纵向插补。然后,通过计算误差对插补结果进行加权结合。最后,模拟数据插补实验和股票数据实例分析结果表明:在不同缺失比例(5%~55%)下,相较于Hot.deck、均值插补、MF、GP等7种插补方法,MFGP方法具有显著的插补优势,插补精度高。
收起全部
展开查看外文信息
作者:
李唯欣
展开 >
关键词:
函数型数据
缺失森林
多重插补
高斯过程
主成分分析
授予学位:
硕士
学科专业:
统计学、应用统计
导师:
高海燕
学位年度:
2024
学位授予单位:
兰州财经大学
语种:
中文
中图分类号:
TP