基于提示学习的小样本文本分类研究

李梓豪¹

扫码查看

作者信息

1. 华中科技大学
折叠

摘要

文本分类任务是自然语言处理领域的经典问题，近年来基于深度学习的方法已经达到了极好的分类结果。训练神经网络模型需要大量的带标签数据，而某些领域常常面临数据稀缺的情况，针对小样本场景的文本分类是一个严峻的挑战；同时现实的应用场景对推理速度有一定要求，故限制了只能使用中等规模的语言模型。提示学习通过将文本分类任务重塑为（掩蔽）语言建模任务，使其更接近语言模型预训练期间的形式，在小样本场景下达到了比传统微调方法更好的结果。对于提示学习中手工模板的可迁移性差以及其构建需要领域内专业知识和大量实践的问题，提出了混合提示调整（Mixed Prompt Tuning, MPT），使用离散词元与连续词元组成的混合提示来进行提示学习，其中包括SOFTEN与LINK这两种不同的连续词元初始化方式。在16-shot的设置下该方法的分类结果大幅优于传统微调，且在三个数据集上最佳模型的准确率相较于提示学习的最佳基线模型分别提升了1.4%, 2.3%, 2.8%。证明了连续词元能够增强提示的表现力，且在小样本场景下基于提示的微调方法达到了更好的分类结果。针对提示学习中标签映射器的候选标签词覆盖面不足的问题，提出了多标签词提示调整（Multiple Label Words Prompt Tuning, MLWPT），一种包含多个候选标签词的标签映射器的构建方法。该方法使用二段式的工作流程：首先在预训练语言模型上使用训练数据进行零样本预测完成对候选标签词的初步搜寻；然后使用基于TF-IDF （Term Frequency–Inverse Document Frequency）算法提取外部知识库的方法对候选标签词集合进行扩容。实验结果表明该方法有效地提升了标签映射器的覆盖面，从而更好地将预测空间映射到答案空间。MLWPT的分类结果大幅优于传统微调，且在16-shot 的设置下分类准确率相较于其他标签映射器构造的最佳基线模型准确率分别提升了 0.6%, 0.8%, 1.7%，证明了为每个类别选择多个候选标签词的必要性。

关键词

文本分类/小样本场景/提示学习/混合提示调整/多标签词提示调整

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

陈长清

学位年度

2022

学位授予单位

华中科技大学

语种

中文

中图分类号

段落导航