计算机技术与发展2022,Vol.32Issue(11) :164-170.DOI:10.3969/j.issn.1673-629X.2022.11.024

基于BERT的民间文学文本预训练模型

BERT Based Pre-training Model of Folk Literature Texts

陶慧丹 段亮 王笳辉 岳昆
计算机技术与发展2022,Vol.32Issue(11) :164-170.DOI:10.3969/j.issn.1673-629X.2022.11.024

基于BERT的民间文学文本预训练模型

BERT Based Pre-training Model of Folk Literature Texts

陶慧丹 1段亮 1王笳辉 1岳昆1
扫码查看

作者信息

  • 1. 云南大学 信息学院,云南 昆明 650500;云南大学 云南省智能系统与计算重点实验室,云南 昆明 650500
  • 折叠

摘要

民间文学文本中含有大量生动形象的修辞手法;人名、地名极其复杂,难以判断词与词之间的边界;与现代汉语表达差别较大,预训练语言模型难以有效地学习其隐含知识,为机器自然语言理解带来困难.该文提出一种基于BERT的民间文学文本预训练模型MythBERT,使用民间文学语料库预训练,将BERT的字隐蔽策略改进为对中文词语隐蔽策略.对民间文学文本中解释字、词的注释词语重点隐蔽,减小BERT隐蔽的随机性并有利于学习词语语义信息.同时利用注释增强语言模型表示,解决一词多义、古今异义等问题.将MythBERT与BERT、BERT-WWM和RoBERTa等主流中文预训练模型在情感分析、语义相似度、命名实体识别和问答四个自然语言处理任务上进行比较.实验结果表明,注释增强的民间文学预训练模型MythBERT在民间文学文本任务上性能显著提升,与基线方法相比取得了最优的效果.

关键词

预训练语言模型/民间文学文本/BERT/自然语言处理/下游任务

引用本文复制引用

基金项目

云南省科技重大专项(202002AD080002)

云南省教育厅科研项目(2002Y010)

云南大学研究生科研创新项目(2021Y023)

出版年

2022
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量3
参考文献量6
段落导航相关论文