多维动态图模型及应用

王晓阳¹

扫码查看

作者信息

1. 北京交通大学
折叠

摘要

现实世界中的很多复杂系统都可以抽象成图或复杂网络的形式进行建模和分析。与大部分其他机器学习方法将研究对象看作相互独立的样本不同，复杂网络致力于研究现实世界的复杂系统中事物（实体）之间的相互关系和潜在规律。其中图模型将所有研究对象看作一个整体，通过考虑研究对象之间的关联关系进行整体的结构化建模，因此成为建模非欧氏空间的关系型数据的有效方法。对图模型的系统性研究，有助于我们理解复杂系统中实体的行为模式和功能结构，在社交网络、推荐系统、舆情监控、生物医药、文本分析、网络安全、智能交通等领域都有着重要应用。图数据的多维性体现在其信息来源的多维性，包括结构维度、内容维度、隶属维度、时间维度等。同时，图数据具有小世界、无标度、社区结构、动态演化等特点。此外，大数据时代产生大量的多维动态图数据，其中包含丰富的异构信息和内容噪声，这些复杂性都给图算法的研究带来了前所未有的机遇和巨大的挑战。如何有针对性地考虑现实生活中复杂系统的特点，充分利用多维的非结构化信息对图数据进行统一建模，有效地对研究对象进行分析和预测，已经成为复杂网络研究的重要内容。针对多维动态图所面临的各种挑战，本文主要研究图算法的复杂多维数据综合建模方法，以及在社区发现、节点分类、节点预测等任务中的应用。本文的主要贡献如下：（1）针对动态属性图数据的多维信息融合问题，本文提出一种基于内容结构生成模型的动态属性图社区发现算法。传统的复杂网络分析方法主要针对静态图数据，但在现实生活中抽象出来的复杂网络往往是动态变化的。如何更好地融合动态多维信息挖掘隐藏在实体关系背后的复杂规律，是本研究领域的一个难点。已有的一些研究忽视了时间序列上的依赖关系，或没有充分利用图中节点的内容信息。本文将动态属性图的历史序列看作一个整体进行建模，同时考虑边的动态变化特性和节点属性对社区潜在隶属度的贡献，提出一种基于一阶马尔科夫序列模型和内容观测模型的动态图社区发现算法。其中时间序列模型通过一阶马尔科夫过程对不同时间片的结构信息关联性建模。内容观测模型通过内容生成模型对时间片内的边和内容属性的生成过程建模。基于对大量动态属性图数据的实验，我们发现提出的算法能够有效地检测交互行为规律变化的动态图的社区结构，并且能够有效地利用节点的属性信息提高挖掘的社区结构的清晰度。（2）针对大规模图数据的计算复杂性和社区发现算法的初始中心选择低效问题，本文提出一种基于显著结构中心性初始化的快速社区发现算法。社区发现算法通过挖掘网络结构的潜在信息，是解决不同领域的复杂网络分析任务的重要工具。随着大数据的积累，很多真实复杂网络都具有庞大的规模，并且包含复杂的非结构化信息，因此很多传统社区发现方法无法处理这些大规模的数据。很多社区发现算法的模型类个数选择和初始化缺乏先验知识。一些快速的启发式方法又忽略了节点影响力和中心节点的重要性。针对这些问题，本文提出了一种基于节点中心性度量方法和节点表示学习的高效社区发现方法。我们认为中心节点应该具有很高的密度和离散度，并设计了一种基于结构密度峰值的节点中心性度量方法，从而能够主动获取节点的社区个数和初始化社区中心节点。同时本文提出了基于中心性度量的采样策略，提高算法在处理大型网络时的收敛速度并避免陷入局部最优解。我们采用基于随机游走的节点表示学习方法对节点特征进行降维，并在大型稀疏图数据集上验证了提出的社区发现方法比传统方法具有更好的性能和鲁棒性。（3）针对时间-空间图数据的联合建模和动态预测问题，本文提出一种基于时间-空间联合注意力机制的动态图卷积神经网络模型。深度学习在大规模的有监督结构化数据上表现出强大的学习能力和优异的性能，但现实生活中存在大量动态变化的非结构化数据，对目前的深度学习技术提出了巨大的挑战。如在道路交通网络中，交通流量状况的变化不仅具有时间依赖，还具有空间依赖。如何利用交通图的空间关联信息和动态数据的时间依赖信息进行统一建模，对道路节点进行实时、准确、高效的未来状态预测，是最具挑战性的关键技术。针对动态交通图数据的复杂性、周期性、波动性、突发性的特点，我们构建了动态交通图时空序列数据，并提出了一种时间-空间联合自注意力机制的图神经网络模型，以全面挖掘交通流的时间-空间关联模式。本文提出了具有位置相关注意力机制的图卷积神经网络层，有效地聚合来自相邻节点的信息；并采用循环自注意力网络结构捕获动态数据的局部和全局的依赖。在大量真实动态交通图数据上的实验结果也验证了本模型相对于最新基准模型的有效性和优越性。（4）针对现实复杂图数据中的节点噪声和算法鲁棒性问题，本文提出一种基于内容强化近邻采样策略的鲁棒图神经网络模型。现实世界的复杂图数据不可避免地充满了节点噪声，因此给基于空间近邻采样和特征聚合的图神经网络带来了巨大挑战。因此，为了提高模型对真实噪声数据集的鲁棒性，本文提出了一种基于强化学习的空间采样策略模型和两阶段自适应训练框架。通过采样策略网络的两阶段迭代学习，求解最优的近邻空间样本分布，从而识别和采样良性样本，避开有噪声的样本。针对不同的应用场景，我们将所学的采样策略扩展到节点采样和分层采样，从而提高算法在面对大规模数据时的计算效率。在模拟噪声数据集和大量真实噪声数据集上进行的实验表明，本文的模型与基准模型相比，在预测性能上有显著的优越性。

关键词

复杂网络/图神经网络/社区发现/交通预测/多维动态图

引用本文复制引用

授予学位

博士

学科专业

计算机科学与技术

导师

于剑/贾彩燕

学位年度

2022

学位授予单位

北京交通大学

语种

中文

中图分类号

段落导航