摘要
当今社会处于大数据时代,现实中的网络数据越来越多,其结构复杂、规模庞大,有效分析其结构对了解、应用其提供的信息具有重要作用.基于混合模型的网络结构发现算法可挖掘网络中的多类型聚类结构,但不能有效处理大规模网络.基于GraphX图计算模型,提出基于Spark的大规模网络的结构发现算法LNSES,从存储空间和运行时间两方面提升算法效率.为减少网络结构发现算法存储大规模网络邻接矩阵内存耗费量,LNSES算法将边、节点及节点静态属性值进行分布式存储,边分区记录节点连边,可作为索引进行节点间参数传递.为提高网络结构发现算法效率,边分区和节点分区进行拉链操作产生索引结构;更新参数时,节点根据索引找到边分区上对应的边,并行实现节点参数更新.在真实和人工大规模网络数据集上的实验结果表明:LNSES在运行时间和网络结构识别准确度方面都要优于同类网络结构发现算法,可以对大规模网络中的结构进行挖掘分析.
基金项目
国家自然科学基金资助项目(61503260)
河北省自然科学基金资助项目(F2019403070)