计算机科学2021,Vol.48Issue(z2) :225-231,264.DOI:10.11896/jsjkx.201200066

混合部署数据中心失效负载分析

Analysis of Workload Failure in Co-located Data Centers

蒋从锋 殷继亮 胡海周 闫龙川 张纪林 万健 仇烨亮
计算机科学2021,Vol.48Issue(z2) :225-231,264.DOI:10.11896/jsjkx.201200066

混合部署数据中心失效负载分析

Analysis of Workload Failure in Co-located Data Centers

蒋从锋 1殷继亮 1胡海周 1闫龙川 2张纪林 3万健 4仇烨亮5
扫码查看

作者信息

  • 1. 杭州电子科技大学计算机学院 杭州 310018
  • 2. 国家电网有限公司信息通信分公司 北京 100053
  • 3. 杭州电子科技大学网络空间安全学院 杭州 310018
  • 4. 浙江科技学院信息与电子工程学院 杭州 310023
  • 5. 阿里云计算有限公司 杭州 311121
  • 折叠

摘要

数据中心工作负载混合部署在显著提升云数据中心的资源利用率的同时,也增加了调度的复杂性和作业的失效率.以阿里云发布的数据中心日志数据集cluster-trace-v2018为例,从离线批处理工作负载角度出发,详细地分析了不同类型工作负载在成功率和资源利用上的特征.主要发现如下:1)少量类型作业的失效会影响集群整体作业成功率并造成集群资源的浪费;2)伏羲分布式调度系统在任务故障切换执行时间上满足高斯分布,在任务调度延迟方面满足齐夫分布;3)通过分析失败实例在集群节点上的分布,发现集群作业发生失败在空间上具有随机性,且失败的实例很容易再次发生失败,而在时间上集群整体失败率则存在不平衡性;4)以任务实例的失效为基准,计算了集群节点的平均无故障时间,大部分节点的平均无故障时间在1000 s左右,小部分节点的任务实例失效率低,其平均无故障时间可达10000 s以上.

关键词

混合部署/工作负载特征/分布式调度/失效分析

引用本文复制引用

基金项目

国家重点研发计划项目(2017YFB101000)

国家自然科学基金面上项目(61972118)

浙江省重点研发计划项目(2019C01059)

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量1
参考文献量1
段落导航相关论文