基于自适应量化的大语言模型微调方法

扫码查看

原文链接

NETL
NSTL
万方数据

中文摘要：近年来,大语言模型(LLMs)在语言文本生成、数学、抽象、代码等综合人工智能任务中表现出色,人们看到了通用人工智能的雏形.然而,模型的微调同样需要消耗大量计算机显存,对计算资源要求极高,一般消费级显卡难以满足.因此,提出一种自适应量化低秩(ADAQ-LoRA)微调算法,旨在解决大语言模型微调时的显存消耗问题.解决方案是同时使用量化和剪枝方法,在不损失准确度的情况下,大幅减少显存使用.将ADAQ-LoRA应用于ChatGLM2-6B模型,并验证了其在不同微调数据集和下游场景中的有效性.与现有大语言模型微调方法相比,ADAQ-LoRA表现出更好的性能和更低的显存使用.

作者：

黄星晨

展开 >

作者单位：

贵州民族大学贵州贵阳 550000

关键词：

深度学习自然语言处理大语言模型微调剪枝量化

基金：

贵州省科技厅基础研究项目贵州省教育厅贵州省高等学校智慧教育工程研究中心贵州思索电子有限公司

项目编号：

黔科合基础-ZK[2022]一般197黔教技[2022]047号

出版年：

2024

DOI：

10.3969/j.issn.1672-9528.2024.09.002

信息技术与信息化

山东电子学会

信息技术与信息化

影响因子：0.29

ISSN：1672-9528

年,卷(期)：2024.(9)