摘要
近年来深度学习在图像、语音、自然语言处理等诸多领域得到广泛应用,但随着人们对深度学习的训练速度和数据处理能力的需求不断提升,传统的基于单机的训练过程愈发难以满足要求,分布式的深度学习训练方法成为持续提升算力的有效途径其中训练过程中节点间网络的通信性能至关重要,直接影响训练性能分析了分布式深度学习中的性能瓶颈,在此基础上对目前常用的网络性能优化方案进行综述,详细阐述了目前最新的超大规模分布式训练的体系结构、优化方法、训练环境和最有效的优化方法,最后对分布式训练仍然存在的困难进行了总结,对其未来研究方向进行了展望.
基金项目
中国科学院战略性先导科技专项(B类)(XDB24050200)
国家自然科学基金面上项目(61972380)
国家自然科学基金面上项目(61702484)
中国科学院计算技术研究所创新课题(20166060)