关于短文本匹配的泛化性和迁移性的研究分析

An Empirical Investigation of Generalization and Transfer in Short Text Matching

马新宇 ¹范意兴 ²郭嘉丰张儒清苏立新程学旗

扫码查看

作者信息

1. 中国科学院网络数据科学与技术重点实验室(中国科学院计算技术研究所) 北京100190
2. 中国科学院大学北京 100049
折叠

摘要

自然语言理解中的许多任务,比如自然语言推断任务、机器问答和复述问题,都可以看作是短文本匹配问题.近年来,大量的数据集和深度学习模型的涌现使得短文本匹配任务取得了长足的进步,然而,很少有工作去分析模型在不同数据集之间的泛化能力,以及如何在新领域中有效地利用现有不同领域中的大量带标注的数据,达到减少新领域的数据标注量和提升性能的目标.为此,重点分析了不同数据集之间的泛化性和迁移性,并且通过可视化的方式展示了影响数据集之间泛化性的因素.具体地,使用深度学习模型ESIM(enhanced sequential inference model)和预训练语言模型BERT(bidirectional encoder representations from transformers)在10个通用的短文本匹配数据集上进行了详尽的实验.通过实验,发现即使是在大规模语料预训练过的BERT,合适的迁移仍能带来性能提升.基于以上的分析,也发现通过在混合数据集预训练过的模型,在新的领域和少量样本情况下,具有较好的泛化能力和迁移能力.

关键词

短文本匹配/泛化性/迁移性/少样本/预训练语言模型

引用本文复制引用

基金项目

国家自然科学基金(61722211)

国家自然科学基金(61773362)

国家自然科学基金(61872338)

国家自然科学基金(62006218)

国家自然科学基金(61902381)

国家重点研发计划(2016QY02D0405)

北京智源人工智能研究院项目(BAAI2019ZD0306)

中国科学院青年创新促进会项目(20144310)

中国科学院青年创新促进会项目(2016102)

重庆市基础科学与前沿技术研究专项重点项目(cstc2017jcjyBX0059)

王宽诚教育基金会项目()

联想-中国科学院联合实验室青年科学家项目()

出版年

2022

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

被引量3

参考文献量30

段落导航