首页|基于变分贝叶斯的缺失数据插补方法研究

基于变分贝叶斯的缺失数据插补方法研究

徐鸿艳

基于变分贝叶斯的缺失数据插补方法研究

徐鸿艳1
扫码查看

作者信息

  • 1. 天津商业大学
  • 折叠

摘要

麦肯锡讲过:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。”数据信息是否完备和充足直接关系到行业及业务的发展,可靠、准确、完整的数据能够提供准确、及时和系统的统计分析与决策,反之,数据的不完整或缺失会降低统计分析与决策的准确性,影响行业和产业发展,甚至会造成巨大的经济和社会损失。然而,在生产实践中,由于某些主、客观原因,不可避免的会造成一些数据缺失,影响数据的质量。对于缺失数据的处理问题,直接剔除或不处理操作最为简单,但会造成数据信息的损失或使建模更为困难。因此,如何科学有效的对缺失值进行预测和插补显得十分重要。 贝叶斯统计是把任何一个未知参数都看作是随机变量,用一个概率分布去描述这个未知参数,然后在统计分析中利用已知数据和先验信息,去获取未知量的后验推断过程。而在贝叶斯模型中,数据后验分布的求解具有一定难度,变分推理则是寻求近似后验分布的一种常用方法,该方法将后验推断问题转化为优化问题进行求解,具有良好的收敛性和可扩展性,适合求解大规模近似推断问题。变分推理主要通过最小化KL-散度(Kullback-Leibler Divergence,KL Divergence)和证据下界(Evidence Lower Bound,ELBO)来寻求近似替代后验分布的任意分布。本文以含有缺失的数据集为研究对象,利用变分推理获得贝叶斯模型的后验分布,进而获得缺失数据的插补和其他统计推断。本文主要做的工作包括: (1)以数据缺失插补为研究对象,分析了平均场变分推理、期望传播变分推理、混合变分推理、坍缩变分贝叶斯推理和随机变分推理等变分推理方法在近似推断贝叶斯模型后验分布上的系列应用情况和流程。 (2)对含有缺失数据的贝叶斯高斯混合模型数据进行插补分析,提出了变分贝叶斯插补方法,并且基于模拟数据和非洲部分国家出生时预期寿命实际数据集分别进行不同缺失比例情况下的实验比较分析,结果表明:在其他控制变量相同的前提下,低比例缺失的插补效果明显优于高比例缺失,并且变分贝叶斯插补法在不同缺失比例下的整体插补成功率和插补准确率均优于最近邻插补和均值插补等其他插补方法。 (3)提出了基于变分稀疏贝叶斯的半监督回归模型,基于“房地产估价”数据集,利用半监督学习插补人为构造的某变量部分缺失数据后,进行插补前后的变分稀疏贝叶斯回归模型对比实证分析。结果表明,含缺失数据的变量可达到约为70%的插补正确率,并且插补后的数据集仍然能达到和原始数据集相差不大的回归效果,有效验证了该模型在处理不完整数据集上的有效性。

关键词

贝叶斯统计/变分推理/缺失数据/插补方法/最小化KL-散度/证据下界

引用本文复制引用

授予学位

硕士

学科专业

统计学

导师

孙云山

学位年度

2022

学位授予单位

天津商业大学

语种

中文

中图分类号

O1
段落导航相关论文