计算机研究与发展2022,Vol.59Issue(7) :1428-1438.DOI:10.7544/issn1000-1239.20210181

基于动态自适应冗余的现场可编程门阵列容错方法

FPGA Fault Tolerance Based on Dynamic Self-Adaptive Redundancy

李泽宇 王泉 杨鹏飞 许志伟 梁金鹏 高歌
计算机研究与发展2022,Vol.59Issue(7) :1428-1438.DOI:10.7544/issn1000-1239.20210181

基于动态自适应冗余的现场可编程门阵列容错方法

FPGA Fault Tolerance Based on Dynamic Self-Adaptive Redundancy

李泽宇 1王泉 1杨鹏飞 1许志伟 2梁金鹏 1高歌1
扫码查看

作者信息

  • 1. 西安电子科技大学计算机科学与技术学院 西安 710071
  • 2. 中国科学院计算技术研究所 北京 100190
  • 折叠

摘要

现场可编程门阵列(field programmable gate array,FPGA)极易遭受由空间高能粒子辐射引发的故障,进而影响片上任务的正常执行.目前常采用三模冗余(triple modular redundance,TMR)进行容错设计,尽管可以取得较好的容错效果但存在资源开销大的问题.尤其当辐射水平较低时,对全部任务采用三模冗余方式执行能使上述资源开销大的问题更加严重.针对此,提出了一种基于动态自适应冗余的容错方法(fault tolerance based on dynamic self-adaptive redundancy,FTDSR).首先,利用片上块存储(block RAM,BRAM)对空间粒子辐射的高敏感性,设计改进了基于BRAM的辐射水平监测器,周期性监测空间环境的辐射水平;其次,以每个任务执行周期的松弛度时间和当前辐射水平为标准评估任务的可靠性等级,进而在不同辐射水平下以单个任务为粒度动态自适应地匹配冗余策略,保证片上任务成功执行,同时避免高资源开销.仿真实验表明,采用FTDSR的FPGA在不同辐射水平下具备高可靠性,与目前主流的FPGA冗余容错方法相比,在同一辐射水平条件下,片上任务完成量平均提高了57.2%.

关键词

现场可编程门阵列/自适应冗余/容错机制/辐射监测/任务可靠性

引用本文复制引用

基金项目

国家自然科学基金(61972302)

陕西省重点研发计划(2021ZDLGY07-01)

出版年

2022
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量5
段落导航相关论文