计算机研究与发展2021,Vol.58Issue(12) :2696-2707.DOI:10.7544/issn1000-1239.2021.20200967

神威太湖之光可靠性及可用性设计与分析

Design and Analysis of Reliability and Availability on Sunway TaihuLight

高剑刚 胡晋 龚道永 方燕飞 刘骁 何王全 金利峰 郑方 李宏亮
计算机研究与发展2021,Vol.58Issue(12) :2696-2707.DOI:10.7544/issn1000-1239.2021.20200967

神威太湖之光可靠性及可用性设计与分析

Design and Analysis of Reliability and Availability on Sunway TaihuLight

高剑刚 1胡晋 1龚道永 1方燕飞 1刘骁 1何王全 1金利峰 1郑方 1李宏亮1
扫码查看

作者信息

  • 1. 国家并行计算机工程技术研究中心 北京 100190
  • 折叠

摘要

随着系统规模与集成度的快速增加,可靠性与可用性问题成为构建E级计算机系统所面临的重大挑战.针对神威太湖之光超级计算机可靠性与可用性设计与实现开展全面的分析.首先概要描述神威太湖之光超级计算机系统结构.其次,系统提出神威太湖之光超级计算机可靠性增强技术以及故障预测、主动迁移、任务局部降级等主被动容错技术,建立神威太湖之光超级计算机多层次主被动协同的容错系统.再次,根据系统故障统计信息,分析失效分布及主要失效来源,结合指数、对数正态与韦布尔3种典型寿命周期分布,对神威太湖之光系统故障间隔时间分布进行数据拟合分析.最大似然估计与K-S(Kolmogorov Smirnov)检验结果表明,对数正态分布与系统失效经验数据取得了最好的拟合度,建立神威太湖之光系统失效分布模型,并计算得出系统平均无故障时间.通过系统运行统计与实际应用测试,分析了故障预测精确度以及主动迁移、局部降低等容错技术的时间开销与容错效果.最后,在神威太湖之光超级计算机可靠性与可用性分析的基础上,提出E级计算机系统高可靠与高可用技术发展建议.

关键词

E级计算机/可靠性/可用性/失效/故障容错/累积分布函数

引用本文复制引用

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量3
参考文献量1
段落导航相关论文