首页|基于知识蒸馏的短文本分类方法

基于知识蒸馏的短文本分类方法

扫码查看
近年来,随着深度学习技术在自然语言处理任务中的广泛应用,语言模型规模越来越大.然而,大规模模型推理速度慢、资源消耗成本高,难以在工业上进行应用,小规模模型又难以达到大规模模型效果.因此提出一种基于教师—学生框架的知识蒸馏模型,以预训练模型BERT作为教师模型,以长短时记忆网络(BiLSTM)等小模型作为学生模型,通过教师指导学生学习的方式将教师模型学习到的知识迁移至学生模型中.实验结果表明,蒸馏模型将运算推理时间缩短至教师模型的1/725,将学生模型短文本分类准确率提升3.16%.
Short Text Classification Method Based on Knowledge Distillation

孙红、黄瓯严

展开 >

上海理工大学光电信息与计算机工程学院,上海200093

知识蒸馏 文本分类 双向模型 自然语言处理

国家自然科学基金国家自然科学基金国家自然科学基金沪江基金

614722566117027761703277C14002

2021

软件导刊
湖北省信息学会

软件导刊

影响因子:0.524
ISSN:1672-7800
年,卷(期):2021.20(6)
  • 1
  • 16