Puzzle:面向深度学习集成芯片的可扩展框架

Puzzle: A Scalable Framework for Deep Learning Integrated Chips

王梦迪 ¹王颖 ²刘成 ²常开颜 ³高成思 ¹韩银和 ²李华伟 ²张磊⁴

扫码查看

作者信息

1. 中国科学院计算技术研究所北京 100190;中国科学院大学北京 100190;处理器芯片全国重点实验室(中国科学院计算技术研究所) 北京 100190;移动计算与新型终端北京市重点实验室(中国科学院计算技术研究所) 北京 100190
2. 中国科学院计算技术研究所北京 100190;处理器芯片全国重点实验室(中国科学院计算技术研究所) 北京 100190
3. 中国科学院计算技术研究所北京 100190;中国科学院大学北京 100190;处理器芯片全国重点实验室(中国科学院计算技术研究所) 北京 100190
4. 中国科学院计算技术研究所北京 100190;处理器芯片全国重点实验室(中国科学院计算技术研究所) 北京 100190;移动计算与新型终端北京市重点实验室(中国科学院计算技术研究所) 北京 100190
折叠

摘要

芯粒集成逐渐成为不同场景下敏捷定制深度学习芯片的高可扩展性的解决方案,芯片设计者可以通过集成设计、验证完成的第三方芯粒来降低芯片开发周期和成本,提高芯片设计的灵活性和芯片良率.在传统的芯片设计和商业模式中,编译器等专用软件工具链是芯片解决方案的组成部分,并在芯片性能和开发中发挥重要作用.然而,当使用第三方芯粒进行芯片敏捷定制时,第三方芯粒所提供的专用工具链无法预知整个芯片的资源,因此无法解决敏捷定制的深度学习芯片的任务部署问题,而为敏捷定制的芯片设计全新的工具链需要大量的时间成本,失去了芯片敏捷定制的优势.因此,提出一种面向深度学习集成芯片的可扩展框架(scalable framework for integrated deep learning chips)——Puzzle,它包含从处理任务输入到运行时管理芯片资源的完整流程,并自适应地生成高效的任务调度和资源分配方案,降低冗余访存和芯粒间通信开销.实验结果表明,该可扩展框架为深度学习集成芯片生成的任务部署方案可自适应于不同的工作负载和硬件资源配置,与现有方法相比平均降低27.5％的工作负载运行延迟.

关键词

芯片敏捷定制/芯粒/深度学习芯片/神经网络处理器/任务调度

引用本文复制引用

基金项目

国家自然科学基金(62090024)

国家自然科学基金(62222411)

出版年

2023

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

参考文献量1

段落导航