计算机研究与发展2021,Vol.58Issue(3) :497-512.DOI:10.7544/issn1000-1239.2021.20200501

集中式集群资源调度框架的可扩展性优化

Scalability for Monolithic Schedulers of Cluster Resource Management Framework

毛安琪 汤小春 丁朝 李战怀
计算机研究与发展2021,Vol.58Issue(3) :497-512.DOI:10.7544/issn1000-1239.2021.20200501

集中式集群资源调度框架的可扩展性优化

Scalability for Monolithic Schedulers of Cluster Resource Management Framework

毛安琪 1汤小春 2丁朝 李战怀3
扫码查看

作者信息

  • 1. 西北工业大学计算机学院 西安710129
  • 2. 工信部大数据存储与管理重点实验室(西北工业大学) 西安710129
  • 3. CCF
  • 折叠

摘要

集中式集群资源管理系统既能够确保全局资源状态的一致性亦拥有多种调度模型,因此被广泛应用于实际系统中.但是,当集中式资源管理器在接收并处理大规模的周期性心跳信息时,由于其采用单一节点来维护全局资源状态,所以资源管理器的负载压力急剧增加,导致调度能力降低,影响了集群系统的可扩展性.针对上述问题,提出一种"没有变化就不更新"的思想,取代集中资源管理的定时更新机制,改善了集中式资源管理系统的可扩展性.首先,通过计算节点引入基于差分的心跳信息处理模型,使得未发生状态变化的节点不必发送心跳消息,从而减少消息发送的规模和次数;其次,针对节点宕机监测过程,提出基于环形监视的节点监控模型,让各个计算节点之间互相监视对方的宕机状态,从而将周期性监测压力转移到计算节点;最后,给出这2种模型在集中式资源管理系统YARN上的实现,并针对改进前后的系统进行实验测试.通过实验验证,当集群达到1万个节点且心跳时间间隔3s时,改进后YARN系统的心跳信息处理效率以及资源更新效率相比原YARN系统提高40%左右.另外,改进后YARN系统管理集群节点规模相比原YARN系统扩大1.88倍以上.

关键词

集中式调度/可扩展性/心跳消息/差分/环形监控

引用本文复制引用

基金项目

国家重点研发计划项目(2018YFB1003400)

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量5
参考文献量1
段落导航相关论文