首页|基于生成式技术的多元时间序列补全研究

基于生成式技术的多元时间序列补全研究

刘财政

基于生成式技术的多元时间序列补全研究

刘财政1
扫码查看

作者信息

  • 1. 中国科学院大学
  • 折叠

摘要

多元时间序列数据是按照时间排序的一组随机变量,它通常表示的是在相等间隔的时间段内依照给定的采样率对某种潜在过程进行观测的结果。现实世界的很多领域,例如工业设计、零售、医学、环境数据、经济数据、交通流量、IIoT系统数据等都存在多元时间序列数据。由于多元时间序列数据在收集时可能会出现数据处理不当、测量误差、异常值删除、人为误操作等问题,这些问题会导致收集到的数据中存在缺失值。多元时间序列的数据缺失破坏了原始数据分布的完整性和平衡性,影响后续分析的准确性和最终应用的有效性,导致难以直接使用这些带有缺失值的数据完成分类、回归、顺序数据集成和预测等下游任务。因此,多元时间序列数据中的数据缺失是一个非常值得关注的问题。 面对有缺失的多元时间序列数据,如果直接忽略其缺失值,会导致偏差或错误的分析结果。研究者也试图对含有缺失值的数据直接建模,并且建模时会依据不同的缺失类型或者缺失比例设计不同的模型和方法,但这类方法缺乏建模的灵活性和通用性。通常情况下,最常用的解决方法是对缺失值进行补全。 已有的缺失值补全方法包括基于统计分析的方法,基于传统机器学习的方法和基于深度学习的方法等,这些方法均在某些领域或者应用中取得了良好的效果。但是,多元时间序列缺失补全任务仍面临的挑战包括:(1)因多元时间序列数据之间的复杂关联性和时间维度的演化性,其数据呈现出较复杂的概率密度分布。并且概率密度分布因数据缺失而缺乏完整性,仅仅从观测数据去拟合数据分布,学习到的模型分布的表达能力有限。如何从缺失数据出发,有效建模和刻画多元时间序列概率密度分布。(2)多元时间序列存在复杂的相关性,这些相关性可以分为属性关联性和时间自相关性。如何有效利用多元时间序列的属性关联性和时间自相关性,以提高补全任务的准确性。(3)多元时间序列的多重潜在成分包括趋势性、周期性和不规则演化性等。如何解开缠绕的时间序列模式,突出多元时间序列的固有属性,对多重潜在分量进行有效建模并改善长程依赖性问题。为应对以上挑战,本文围绕多元时间序列补全任务,对应地提出相应的解决方案。基于此,本文的主要研究聚焦于:刻画和建模多元时间序列的复杂分布,挖掘其属性关联性和时间自相关性,以及从不同构成(多重潜在分量)和长程依赖性的角度。对多元时间序列的缺失值进行补全,以提高下游任务的准确性和最终应用的有效性。本文的主要研究内容是: (1)提出了基于隐空间分布增强的多元时间序列补全:本文提出了一种融合多种生成模型的多元时间序列数据的补全模型GlowImp,包含Glow-VAE模块和GAN模块。Glow-VAE模块通过一系列可逆函数转换来推断潜在变量并评估和优化精确的对数似然,用于实现对隐空间分布增强,从而使隐变量对数据的真实分布进行准确建模。本模型也能够生成高维和多样化的数据样本并防止GAN模型坍塌,且利用VAE在降维方面的能力来降低与Glow模型相关的时间成本。对两个公共数据集的实验表明,GlowImp可以实现对缺失值进行精确地补全。 (2)提出了基于关联融合和时序注意力机制的多元时间序列补全:本文设计了新的多元时间序列补全模型CGCNImp,该模型对多元时间序列的属性关联性和时间自相关性两个主要特征进行建模。CGCNImp基于神经Granger因果抽取模块来刻画属性之间的因果关系,并利用GCN来建模属性之间的关联性。基于注意力机制LSTM模型结合时滞衰减矩阵,建模时间自相关相关性。最后,使用邻域平滑技术来平滑时间序列以减少噪声,并补全缺失值。在两个数据集上进行了对比实验,实验结果表明,CGCNImp比现有的方法具有更好的补全性能。 (3)提出了基于多重潜在成分建模的多元时间序列补全:本文设计了具有渐进分解能力的多元时间序列补全模型DECImp。本模型基于分解思想并试图超越分解的预处理使用,使用具有相似值的邻域平滑技术,建模多元时间序列的趋势性潜在分量。使用奇异值分解,得到周期性潜在分量和不规则性潜在分量,接着利用Transformer强大的建模能力来建模不规则变化分量的演化特征。最后,采用加法时间序列,将多元时间序列的趋势性潜在分量、周期性潜在分量和不规则性潜在分量进行求和,得到最终的补全结果。实验结果表明,DECImp与现有方法相比,实现了最先进的补全性能。 本文的主要贡献如下: (1)通过对多元时间序列数据隐空间概率分布的挖掘,实现隐空间概率分布增强,以准确刻画和建模多元时间序列的复杂分布。改善现有模型因数据缺乏完整性、仅从观测数据去拟合数据分布、学习到的概率密度分布表达能力有限、难以刻画度多元时间序列复杂分布的问题。 (2)通过对多元时间序列数据的关联关系进行挖掘,设计能够有效建模多元时间序列数据的关联关系,改善现有模型对多元时间序列的关联关系挖掘不足、误差累积传递的问题,从而更加准确的进行多元时间序列的补全。 (3)通过对多元时间序列数据多重潜在成分的挖掘,设计基于渐进式分解思想的生成模型,建模多元时间序列纠缠的多重潜在成分,突出多元时间序列的固有属性,并通过多头注意力机制建模长程依赖性特征。改善抽取和建模多重潜在成分难、建模多元时间序列的长程时间依赖性难的问题。

关键词

多元时间序列补全/生成式技术/补全性能

引用本文复制引用

授予学位

博士

学科专业

计算机系统结构

导师

李国杰

学位年度

2023

学位授予单位

中国科学院大学

语种

中文

中图分类号

TP
段落导航相关论文