计算机研究与发展2023,Vol.60Issue(3) :654-675.DOI:10.7544/issn1000-1239.202110839

分布式多维大图迭代计算性能优化方法

Optimization Methods for Distributed Iterative Computing Performance over Multi-Dimensional Large Graph

杜玉洁 王志刚 王宁 刘芯亦 衣军成 聂婕 魏志强 谷峪 于戈
计算机研究与发展2023,Vol.60Issue(3) :654-675.DOI:10.7544/issn1000-1239.202110839

分布式多维大图迭代计算性能优化方法

Optimization Methods for Distributed Iterative Computing Performance over Multi-Dimensional Large Graph

杜玉洁 1王志刚 1王宁 2刘芯亦 1衣军成 3聂婕 1魏志强 1谷峪 4于戈4
扫码查看

作者信息

  • 1. 中国海洋大学计算机科学与技术学院 山东青岛 266100
  • 2. 中国海洋大学计算机科学与技术学院 山东青岛 266100;密码技术与信息安全教育部重点实验室(山东大学) 山东青岛 266237
  • 3. 青岛市大数据中心 山东青岛 266071
  • 4. 东北大学计算机科学与工程学院 沈阳 110819
  • 折叠

摘要

大规模图的复杂挖掘算法通常需要高频迭代分析,而在计算与存储方面扩展性良好的分布式计算是提高处理效率的有效方案.然而,图顶点之间存在自由分布的边关系,会在分布式计算任务之间产生大量消息,由此在迭代过程中产生的巨大通信开销严重制约性能收益.已有工作在传统消息推送框架下采用合并和备份等技术降低通信代价,但主要面向结构简单、易优化的单维消息类算法,并不适用于结构复杂的多维消息类算法,也难以与当前最先进的消息按需拉取框架兼容.因此提出一种新型轻量级顶点备份机制,通过备份顶点的按需同步以及本地消息的按需生成,可完美继承拉取框架在容错和内存管控等方面的系统优势,同时显著降低通信代价.此外,通过考虑通信收益与负载偏斜代价,可计算最优阈值以提高整体性能.最后在大量真实数据集上验证了相关技术的有效性.

关键词

分布式图迭代计算/多维消息图算法/通信优化/顶点备份/负载不均衡

引用本文复制引用

基金项目

国家自然科学基金(61902366)

国家自然科学基金(61902365)

国家自然科学基金(62072083)

中央高校基本科研业务费专项(202042008)

山东大学密码技术与信息安全教育部重点实验室开放课题()

中国博士后科学基金(2020T130623)

青岛市自主创新重大专项(20-3-2-12-xx)

中国海洋大学计算机系研究生专业发展基金(CSZS2021003)

出版年

2023
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量5
段落导航相关论文