计算机研究与发展2021,Vol.58Issue(4) :888-903.DOI:10.7544/issn1000-1239.2021.20190732

一种基于条带的一致性散列数据放置算法

A Consistent Hash Data Placement Algorithm Based on Stripe

魏征 窦禹 高艳珍 马捷 孙凝晖 邢晶
计算机研究与发展2021,Vol.58Issue(4) :888-903.DOI:10.7544/issn1000-1239.2021.20190732

一种基于条带的一致性散列数据放置算法

A Consistent Hash Data Placement Algorithm Based on Stripe

魏征 1窦禹 1高艳珍 1马捷 2孙凝晖 2邢晶2
扫码查看

作者信息

  • 1. 计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190;中国科学院大学 北京 100190
  • 2. 计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190
  • 折叠

摘要

分布式存储系统作为数据存储的载体,广泛应用于大数据领域.纠删码存储方式相对副本方式,既具有较高的空间利用效率,又能保证数据存储的可靠性,因此被越来多的应用于存储系统当中.在EB级大规模纠删码分布式存储系统中,元数据管理成本较大,位置信息等元数据查询效率影响了I/O时延和吞吐量.基于位置信息记录的有中心数据放置算法需要频繁访问元数据服务器,导致性能优化受限,基于Hash映射的无中心数据放置算法越来越多地得到应用.但面向纠删码的无中心放置算法,在节点变更和数据恢复过程中,存在位置变更困难、迁移数据量大、数据恢复和迁移并发度低等问题.提出了一种基于条带的一致性Hash数据放置算法(consistent Hash data placement algorithm based on stripe, SCHash),SCHash以条带为单位放置数据,通过把数据块到节点的映射转化为条带到节点组的映射过程,减少节点变动过程中的数据迁移量,从而在恢复过程中降低了变动数据的比例,加速了恢复带宽.并基于SCHash算法设计了一种基于条带的并发I/O调度恢复策略,通过避免选取同一节点的数据块进行I/O操作,提升了I/O并行度,通过调度恢复I/O和迁移I/O的执行顺序,减少了数据恢复的执行时间.相比APHash数据放置算法,SCHash在数据恢复过程中,减少了46.71%~85.28%数据的迁移.在条带内重建时,恢复带宽提升了48.16%,在条带外节点重建时,恢复带宽提升了138.44%.

关键词

分布式文件系统/纠删码/一致性Hash/条带/数据放置/数据恢复

引用本文复制引用

基金项目

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量2
参考文献量1
段落导航相关论文