分布式深度学习训练网络综述

Survey on Network of Distributed Deep Learning Training

朱泓睿 ¹元国军 ²姚成吉 ³谭光明 ²王展 ²户忠哲 ⁴张晓扬 ⁴安学军²

扫码查看

作者信息

1. 中国科学院计算技术研究所北京100190;中国科学院大学北京100049
2. 中国科学院计算技术研究所北京100190
3. 北京旷视科技有限公司北京100080
4. 中国科学院计算技术研究所北京100190;中国科学院大学北京100049;北京旷视科技有限公司北京100080
折叠

摘要

近年来深度学习在图像、语音、自然语言处理等诸多领域得到广泛应用,但随着人们对深度学习的训练速度和数据处理能力的需求不断提升,传统的基于单机的训练过程愈发难以满足要求,分布式的深度学习训练方法成为持续提升算力的有效途径其中训练过程中节点间网络的通信性能至关重要,直接影响训练性能分析了分布式深度学习中的性能瓶颈,在此基础上对目前常用的网络性能优化方案进行综述,详细阐述了目前最新的超大规模分布式训练的体系结构、优化方法、训练环境和最有效的优化方法,最后对分布式训练仍然存在的困难进行了总结,对其未来研究方向进行了展望.

关键词

分布式计算/深度学习/通信网络/性能优化/集合通信/集群网络

引用本文复制引用

基金项目

中国科学院战略性先导科技专项(B类)(XDB24050200)

国家自然科学基金面上项目(61972380)

国家自然科学基金面上项目(61702484)

中国科学院计算技术研究所创新课题(20166060)

出版年

2021

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

被引量9

参考文献量71

段落导航