计算机研究与发展2021,Vol.58Issue(1) :98-115.DOI:10.7544/issn1000-1239202120190881

分布式深度学习训练网络综述

Survey on Network of Distributed Deep Learning Training

朱泓睿 元国军 姚成吉 谭光明 王展 户忠哲 张晓扬 安学军
计算机研究与发展2021,Vol.58Issue(1) :98-115.DOI:10.7544/issn1000-1239202120190881

分布式深度学习训练网络综述

Survey on Network of Distributed Deep Learning Training

朱泓睿 1元国军 2姚成吉 3谭光明 2王展 2户忠哲 4张晓扬 4安学军2
扫码查看

作者信息

  • 1. 中国科学院计算技术研究所 北京100190;中国科学院大学 北京100049
  • 2. 中国科学院计算技术研究所 北京100190
  • 3. 北京旷视科技有限公司 北京100080
  • 4. 中国科学院计算技术研究所 北京100190;中国科学院大学 北京100049;北京旷视科技有限公司 北京100080
  • 折叠

摘要

近年来深度学习在图像、语音、自然语言处理等诸多领域得到广泛应用,但随着人们对深度学习的训练速度和数据处理能力的需求不断提升,传统的基于单机的训练过程愈发难以满足要求,分布式的深度学习训练方法成为持续提升算力的有效途径其中训练过程中节点间网络的通信性能至关重要,直接影响训练性能分析了分布式深度学习中的性能瓶颈,在此基础上对目前常用的网络性能优化方案进行综述,详细阐述了目前最新的超大规模分布式训练的体系结构、优化方法、训练环境和最有效的优化方法,最后对分布式训练仍然存在的困难进行了总结,对其未来研究方向进行了展望.

关键词

分布式计算/深度学习/通信网络/性能优化/集合通信/集群网络

引用本文复制引用

基金项目

中国科学院战略性先导科技专项(B类)(XDB24050200)

国家自然科学基金面上项目(61972380)

国家自然科学基金面上项目(61702484)

中国科学院计算技术研究所创新课题(20166060)

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量9
参考文献量71
段落导航相关论文