中文信息学报2024,Vol.38Issue(6) :86-95.

基于阅读理解的汉越跨语言新闻事件要素抽取方法

Chinese-Vietnamese Cross Language News Event Element Extraction of via Machine Reading Comprehension

朱恩昌 余正涛 高盛祥 黄于欣 郭军军
中文信息学报2024,Vol.38Issue(6) :86-95.

基于阅读理解的汉越跨语言新闻事件要素抽取方法

Chinese-Vietnamese Cross Language News Event Element Extraction of via Machine Reading Comprehension

朱恩昌 1余正涛 1高盛祥 1黄于欣 1郭军军1
扫码查看

作者信息

  • 1. 昆明理工大学信息工程与自动化学院,云南昆明 650500;昆明理工大学云南省人工智能重点实验室,云南昆明 650500
  • 折叠

摘要

新闻事件要素抽取旨在抽取新闻文本中描述主题事件的事件要素,如时间、地点、人物和组织机构名等.传统的事件要素抽取方法在资源稀缺型语言上性能欠佳,且对长文本语义建模困难.对此,该文提出了基于阅读理解的汉越跨语言新闻事件要素抽取方法.该方法首先利用新闻长文本关键句检索模块过滤含噪声的句子.然后利用跨语言阅读理解模型将富资源语言知识迁移到越南语,提高越南语新闻事件要素抽取的性能.在自建的汉越双语新闻事件要素抽取数据集上的实验验证了该文方法的有效性.

Abstract

news event element extract aims to extract the event arguments that describe the topic event in the news text,such as time,location,people,and organization.To perform the event element extraction on low-resource lan-guages,this paper proposes a Chinese-Vietnamese Cross-language News Event Element extraction via machine read-ing comprehension.First,we apply the key sentence retrieval from the long news text to filter noisy sentences.Then we use the cross-language machine reading comprehension model to transfer rich resource language knowledge to improve the performance of Vietnamese news event element extraction.Experiments on the self-built Chinese-Viet-namese bilingual data set prove the effectiveness of this method.

关键词

新闻事件要素抽取/长文本语义建模/跨语言知识迁移/阅读理解

Key words

news event element extraction/long text sematic modeling/cross-language knowledge transfer/reading comprehension

引用本文复制引用

基金项目

国家自然科学基金(U21B2027)

国家自然科学基金(U23A20388)

国家自然科学基金(62266028)

云南省重大科技专项计划项目(202302AD080003)

云南省重大科技专项计划项目(202202AD080003)

云南省重大科技专项计划项目(202303AP140008)

云南省基础研究重点项目(202301AS070047)

昆明理工大学"双一流"创建联合专项(202201BE070001-021)

出版年

2024
中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCSCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
参考文献量31
段落导航相关论文