面向汉越跨语言事件检索的事件预训练方法
Event Pre-training for Chinese-Vietnamese Cross-lingual Event Retrieval
吴少扬 1余正涛 1黄于欣 1朱恩昌 1高盛祥 1邓同杰1
作者信息
- 1. 昆明理工大学 信息工程与自动化学院,云南 昆明 650500;昆明理工大学 云南省人工智能重点实验室,云南 昆明 650500
- 折叠
摘要
汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务.由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务.因此,为了将汉越双语对齐的事件知识融入到多语言预训练语言模型中,该文提出了两个预训练方法,即事件要素掩码预训练以及跨语言事件对比预训练.在该文构造的汉越跨语言事件检索数据集和公开跨语言问答数据集上进行了实验,比基线提升 1%~3%MAP 值,2%~4%NDCG值,证明了该文方法的有效性.
Abstract
Chinese-Vietnamese cross-lingual event retrieval is a task to retrieve Vietnamese event news by query in Chinese.To incorporate Chinese-Vietnamese aligned event knowledge into a multilingual pre-trained language mod-el,this paper proposes two pre-training methods,namely event element mask pre-training,and cross-lingual event comparison learning pre-training.Experiments were conducted on the Chinese-Vietnamese cross-lingual event re-trieval dataset and the open cross-lingual question-and-answer dataset constructed in the paper,with results of MAP improvement by 1%~3%and NDCG improvements by 2%~4%.
关键词
事件预训练/跨语言事件检索/掩码语言模型/对比学习Key words
event pre-training/cross-lingual event retrieval/masked language model/contrastive learning引用本文复制引用
基金项目
国家自然科学基金(U21B2027)
国家自然科学基金(61972186)
国家自然科学基金(61732005)
国家自然科学基金(61866019)
云南省重大科技专项(202002AD080001)
云南省重大科技专项(202202AD080003)
云南省重大科技专项(202103AA080015)
云南省高新技术产业专项(201606)
出版年
2024