摘要
分类问题是机器学习的一个重要分支,通过对已知数据的特征进行学习,预测未知数据的分类。分类预测模型在现实生活中有着广泛的应用:新闻文本分类、垃圾邮件过滤、银行客户评级、金融行业风险评估等。但是,随着互联网与移动通讯的高速发展,数据体量不断增大,数据之间的关系变得错综复杂。以往在研究分类问题时,研究学者们通常会假设数据之间是相互独立的,然而,面对如今复杂的数据关系,这样的假设也就不再适用。面对由复杂数据关系抽象而成的异构信息网络(HeterogeneousInformationNetwork,HIN)数据,处理方式主要是:(1)忽略异构信息网络中存在的关系特征,利用传统机器学习分类模型进行研究;(2)忽略关系类型,利用邻居节点标签将关系转化为特征。无论是哪种处理方式,对数据之间的关系信息的利用都存在一定的信息损失。本文从直接利用关系特征进行图卷积特征提取的角度出发,研究了对异构信息网络关系的直接利用,基于GCN(GraphConvolutionalNetwork)模型,分别提出了基于聚合信息的GCN-HIN分类模型——聚合图卷积(GraphConvolutionalNetworkAggregation,GCN-A)和基于残差信息的GCN-HIN分类模型——残差图卷积(ResidualGraphConvolutionalNetwork,ResGCN)。本文的主要内容如下: (1)提出了GCN-A算法。本文基于异构信息网络中研究节点之间复杂的关联关系,提出了GCN-A算法。该算法首先将异构信息网络依据元路径分割方法,分解成多个携带不同语义的同构网络结构,然后利用GCN依次对每一种语义的同构网络进行特征提取,再将各语义层提取出来的特征进行特征融合,最终输入进分类器进行分类学习。本文在3个标准异构信息网络数据集上的实验结果表明GCN-A算法优于对比的异构信息网络分类算法。 (2)提出了ResGCN算法。本文基于异构信息网络中研究节点之间复杂的关联关系,以及GCN-A算法中存在受同构网络排序靠前的语义信息影响较大的缺点。提出了ResGCN算法。针对每一层语义特征,通过引入残差结果,强化研究节点自身特征的占比,最终达到优化分类预测结果的目的。本文在3个标准异构信息网络数据集上的实验结果表明ResGCN算法优于对比的异构信息网络分类算法,并对GCN-A算法有所改进。 (3)算法应用分析。本文从恐怖事件知识库中提取出恐怖袭击事件数据集与恐怖分子关系数据集,并将其视作异构信息网络,将GCN-A与ResGCN算法应用在其中。实验结果表明本文提出的两种算法在上述两个数据集上的分类预测效果均优于其他异构信息网络分类算法。