首页|基于自适应量化的大语言模型微调方法

基于自适应量化的大语言模型微调方法

扫码查看
近年来,大语言模型(LLMs)在语言文本生成、数学、抽象、代码等综合人工智能任务中表现出色,人们看到了通用人工智能的雏形.然而,模型的微调同样需要消耗大量计算机显存,对计算资源要求极高,一般消费级显卡难以满足.因此,提出一种自适应量化低秩(ADAQ-LoRA)微调算法,旨在解决大语言模型微调时的显存消耗问题.解决方案是同时使用量化和剪枝方法,在不损失准确度的情况下,大幅减少显存使用.将ADAQ-LoRA应用于ChatGLM2-6B模型,并验证了其在不同微调数据集和下游场景中的有效性.与现有大语言模型微调方法相比,ADAQ-LoRA表现出更好的性能和更低的显存使用.

黄星晨

展开 >

贵州民族大学 贵州贵阳 550000

深度学习 自然语言处理 大语言模型 微调 剪枝 量化

贵州省科技厅基础研究项目贵州省教育厅贵州省高等学校智慧教育工程研究中心贵州思索电子有限公司

黔科合基础-ZK[2022]一般197黔教技[2022]047号

2024

信息技术与信息化
山东电子学会

信息技术与信息化

影响因子:0.29
ISSN:1672-9528
年,卷(期):2024.(9)