计算机研究与发展2023,Vol.60Issue(6) :1216-1231.DOI:10.7544/issn1000-1239.202330059

Puzzle:面向深度学习集成芯片的可扩展框架

Puzzle: A Scalable Framework for Deep Learning Integrated Chips

王梦迪 王颖 刘成 常开颜 高成思 韩银和 李华伟 张磊
计算机研究与发展2023,Vol.60Issue(6) :1216-1231.DOI:10.7544/issn1000-1239.202330059

Puzzle:面向深度学习集成芯片的可扩展框架

Puzzle: A Scalable Framework for Deep Learning Integrated Chips

王梦迪 1王颖 2刘成 2常开颜 3高成思 1韩银和 2李华伟 2张磊4
扫码查看

作者信息

  • 1. 中国科学院计算技术研究所 北京 100190;中国科学院大学 北京 100190;处理器芯片全国重点实验室(中国科学院计算技术研究所) 北京 100190;移动计算与新型终端北京市重点实验室(中国科学院计算技术研究所) 北京 100190
  • 2. 中国科学院计算技术研究所 北京 100190;处理器芯片全国重点实验室(中国科学院计算技术研究所) 北京 100190
  • 3. 中国科学院计算技术研究所 北京 100190;中国科学院大学 北京 100190;处理器芯片全国重点实验室(中国科学院计算技术研究所) 北京 100190
  • 4. 中国科学院计算技术研究所 北京 100190;处理器芯片全国重点实验室(中国科学院计算技术研究所) 北京 100190;移动计算与新型终端北京市重点实验室(中国科学院计算技术研究所) 北京 100190
  • 折叠

摘要

芯粒集成逐渐成为不同场景下敏捷定制深度学习芯片的高可扩展性的解决方案,芯片设计者可以通过集成设计、验证完成的第三方芯粒来降低芯片开发周期和成本,提高芯片设计的灵活性和芯片良率.在传统的芯片设计和商业模式中,编译器等专用软件工具链是芯片解决方案的组成部分,并在芯片性能和开发中发挥重要作用.然而,当使用第三方芯粒进行芯片敏捷定制时,第三方芯粒所提供的专用工具链无法预知整个芯片的资源,因此无法解决敏捷定制的深度学习芯片的任务部署问题,而为敏捷定制的芯片设计全新的工具链需要大量的时间成本,失去了芯片敏捷定制的优势.因此,提出一种面向深度学习集成芯片的可扩展框架(scalable framework for integrated deep learning chips)——Puzzle,它包含从处理任务输入到运行时管理芯片资源的完整流程,并自适应地生成高效的任务调度和资源分配方案,降低冗余访存和芯粒间通信开销.实验结果表明,该可扩展框架为深度学习集成芯片生成的任务部署方案可自适应于不同的工作负载和硬件资源配置,与现有方法相比平均降低27.5%的工作负载运行延迟.

关键词

芯片敏捷定制/芯粒/深度学习芯片/神经网络处理器/任务调度

引用本文复制引用

基金项目

国家自然科学基金(62090024)

国家自然科学基金(62222411)

出版年

2023
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
参考文献量1
段落导航相关论文