中文信息学报2024,Vol.38Issue(9) :66-72.

结合数据增强方法的藏文预训练语言模型

Tibetan Pre-training Language Model Combined with Data Enhancement Method

色差甲 班马宝 才让加 柔特
中文信息学报2024,Vol.38Issue(9) :66-72.

结合数据增强方法的藏文预训练语言模型

Tibetan Pre-training Language Model Combined with Data Enhancement Method

色差甲 1班马宝 2才让加 1柔特2
扫码查看

作者信息

  • 1. 省部共建藏语智能信息处理及应用国家重点实验室,青海西宁 810008;青海省藏文信息处理工程技术研究中心,青海西宁 810008
  • 2. 省部共建藏语智能信息处理及应用国家重点实验室,青海西宁 810008
  • 折叠

摘要

最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式.在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题.首先,该文收集整理含有46.55亿字符的藏文文本语料;然后在UniLM模型的基础上,利用藏文文本特征的数据增强方法和预训练技术相结合的方法预训练藏文语言模型.实验表明,该文方法在藏文La格例句分类和藏文文本分类等四个下游任务中获得显著效果.

Abstract

Recently,in the field of natural language processing,pre training plus fine tuning has become a new para-digm.This paper collects and arranges the Tibetan text corpus containing 4.655 billion characters,then pretrained by a Tibetan language model via the UniLM model,enhanced by the Tibetan text features.Experiments show that this method has achieved remarkable results in four downstream tasks,such as Tibetan La case sentence classifica-tion and Tibetan text classification.

关键词

藏文预训练语言模型/文本数据增强方法/UniLM模型

Key words

Tibetan pre-training language model/text data enhancement method/UniLM model

引用本文复制引用

基金项目

青海省重点研发与转化计划项目(2022-GX-104)

青海师范大学青年科研基金(2024QER14)

藏语智能信息处理及应用国家重点实验室(2024-skl-006)

出版年

2024
中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCSCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
参考文献量6
段落导航相关论文