摘要
在网络理论研究中,复杂网络作为现实世界的抽象模型,是由众多节点以及各节点之间复杂的关系共同构成的,网络中的节点表示现实世界中的个体,网络中的连边表示个体间的相互作用。近年来,链路预测(linkprediction)作为复杂网络研究的重要热点之一,引起了广大学者的关注探讨,在推荐系统、网络重构、网络演化模型评估等方面,都表现出了巨大的应用价值。 链路预测是指根据已知的网络节点信息以及网络拓扑信息等去推断网络中可能存在的(不可见的)链接或未来可能形成的链接,即网络缺失信息的还原和网络未来信息的预测。如今链路预测已广泛应用于现实生活中,如生物网络中的活性成分及作用机制预测,蛋白质网络中的蛋白质功能预测,社交网络中的好友推荐等。 目前,研究较多的仍然是静态同质网络的链路预测。在静态同质网络中,目前较为流行的基于图嵌入的链路预测方法大多只考虑节点的拓扑信息,而忽略了节点丰富的属性信息。在网络图中,拓扑信息明确描述节点之间的成对关系和序列关系,而节点属性则为节点本身提供更具细粒度的特征,拓扑结构和节点属性都是理解网络形式化的关键。为了准确、有效地捕获节点的拓扑信息和属性信息并将其融合应用于链路预测任务,本文提出了一种双通道图卷积的链路预测方法(DualChannelGraphConvolutionLinkPrediction,DC-GCN)。DC-GCN引入k近邻图的思想,首先计算任意两个节点的属性相似度,选择每一个节点的前k个具有较高属性相似度的节点,在它们之间设定为有连边,构造节点的k近邻矩阵,生成网络特征图;然后,利用GCN构建双通道模型分别对网络拓扑图和特征图进行卷积运算来获取复杂网络中节点的拓扑嵌入和属性嵌入;接下来,使用注意力机制自适应地对拓扑嵌入和属性嵌入进行加权融合;最后利用节点的哈达玛距离公式构造节点间的连边表征,通过训练逻辑回归函数得到节点之间产生连边的概率。本方法通过与多种不同类型的链路预测算法进行对比分析,结果表明本算法在AUC和Precision两个评价指标上均有较大优势。因此DC-GCN能有效地结合节点属性和网络的结构信息,提高链路预测算法的精确性。 虽然DC-GCN在静态同质网络上取得了较好的效果,但现实中的大多数网络本质上都是动态异构的,不仅拥有多种类型的节点和关系,且随时间的变化而不断演变。然而,现有的链路预测算法大多针对静态网络或同质网络,没有充分利用其时间维度上的变化信息,忽视了网络中蕴含的丰富语义和结构特性。目前为止,动态异构网络的链路预测工作有限,因此,本文提出了一种将分层注意力机制与神经网络ConvLSTM模型相结合来融合网络的动态、异质信息的动态异质网络链路预测方法(DynamicHeterogeneousNetworkLinkPredictionMethodBasedontheFusionofLayeredAttentionMechanismandNeuralNetworkConvLSTMModel,Att-ConvLSTM),首先,将动态异质网络分成无数个静态异质快照,对每个快照利用分层注意力模型分别将节点的邻域信息进行加权聚合,获得不同边缘类型、不同时间快照的节点表示集;再将类型相同的连边信息进行加权聚合,可以获得不同时间快照的最终节点嵌入表示;然后将卷积神经网络ConvLSTM与分层注意力相结合来捕获网络的进化模式。神经网络模型ConvLSTM将传统的LSTM网络中的输入与各个门之间的前馈网络换成了卷积网络,各状态之间的运算换成了卷积运算来获取节点的时间嵌入;最后,将得到的最终节点嵌入用于链路预测任务。为了验证模型捕获动态异质信息的有效性,本文分别在Twitter、EComm和Alibaba.com数据集上和静态同构方法DeepWalk、静态异构网络方法metapath2vec、动态同构方法DySAT,以及动态异构方法change2vec、DHNE进行对比,证明所提方法的有效性。