首页|面向汉越跨语言事件检索的事件预训练方法

面向汉越跨语言事件检索的事件预训练方法

Event Pre-training for Chinese-Vietnamese Cross-lingual Event Retrieval

扫码查看
汉越跨语言事件检索是用汉语查询检索越南语事件新闻的任务.由于越南语属于典型的低资源语言,汉越跨语言事件检索缺乏大规模的标注数据,并且现有的跨语言预训练模型无法很好地表征文本中丰富的汉越对齐事件知识,不适用于该任务.因此,为了将汉越双语对齐的事件知识融入到多语言预训练语言模型中,该文提出了两个预训练方法,即事件要素掩码预训练以及跨语言事件对比预训练.在该文构造的汉越跨语言事件检索数据集和公开跨语言问答数据集上进行了实验,比基线提升 1%~3%MAP 值,2%~4%NDCG值,证明了该文方法的有效性.
Chinese-Vietnamese cross-lingual event retrieval is a task to retrieve Vietnamese event news by query in Chinese.To incorporate Chinese-Vietnamese aligned event knowledge into a multilingual pre-trained language mod-el,this paper proposes two pre-training methods,namely event element mask pre-training,and cross-lingual event comparison learning pre-training.Experiments were conducted on the Chinese-Vietnamese cross-lingual event re-trieval dataset and the open cross-lingual question-and-answer dataset constructed in the paper,with results of MAP improvement by 1%~3%and NDCG improvements by 2%~4%.

event pre-trainingcross-lingual event retrievalmasked language modelcontrastive learning

吴少扬、余正涛、黄于欣、朱恩昌、高盛祥、邓同杰

展开 >

昆明理工大学 信息工程与自动化学院,云南 昆明 650500

昆明理工大学 云南省人工智能重点实验室,云南 昆明 650500

事件预训练 跨语言事件检索 掩码语言模型 对比学习

国家自然科学基金国家自然科学基金国家自然科学基金国家自然科学基金云南省重大科技专项云南省重大科技专项云南省重大科技专项云南省高新技术产业专项

U21B2027619721866173200561866019202002AD080001202202AD080003202103AA080015201606

2024

中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
年,卷(期):2024.38(4)
  • 41