摘要
近年来,大语言模型(LLMs)在语言文本生成、数学、抽象、代码等综合人工智能任务中表现出色,人们看到了通用人工智能的雏形.然而,模型的微调同样需要消耗大量计算机显存,对计算资源要求极高,一般消费级显卡难以满足.因此,提出一种自适应量化低秩(ADAQ-LoRA)微调算法,旨在解决大语言模型微调时的显存消耗问题.解决方案是同时使用量化和剪枝方法,在不损失准确度的情况下,大幅减少显存使用.将ADAQ-LoRA应用于ChatGLM2-6B模型,并验证了其在不同微调数据集和下游场景中的有效性.与现有大语言模型微调方法相比,ADAQ-LoRA表现出更好的性能和更低的显存使用.
基金项目
贵州省科技厅基础研究项目(黔科合基础-ZK[2022]一般197)
贵州省教育厅(黔教技[2022]047号)
贵州省高等学校智慧教育工程研究中心()
贵州思索电子有限公司()