基于指针标注的跨境民族文化实体关系抽取方法
Cross-border Ethnic Cultural Entity Relation Extraction Based on Pointer Annotation
杨振平 1毛存礼 1雷雄丽 2黄于欣 1张勇丙1
作者信息
- 1. 昆明理工大学 信息工程与自动化学院,云南 昆明 650500;昆明理工大学 云南省人工智能重点实验室,云南 昆明 650500
- 2. 昆明理工大学 云南省人工智能重点实验室,云南 昆明 650500;昆明冶金高等专科学校,云南 昆明 650500
- 折叠
摘要
跨境民族文化领域文本中存在较多的领域词汇,使得模型提取领域信息困难,造成上下文领域信息缺失,在该领域中实体密度分布高,面临实体关系重叠的问题.考虑到领域信息对跨境民族文化文本语义表征有着重要的作用,该文提出一种基于指针标注的跨境民族文化实体关系抽取方法,在字符向量表示中融入领域词典信息来增强领域信息用于解决领域实体标注不准确问题,通过多层指针标注解决跨境民族文化领域实体关系重叠问题.实验结果表明,在跨境民族文化实体关系抽取数据集上所提出方法相比于基线方法的F1 值提升了 2.34%.
Abstract
The information extraction in the field of cross-border ethnic culture is challenged by rich domain words and the high density distribution of entities caused the overlapping entity relationships.To better capture the domain information,this paper proposes a cross-border ethnic cultural entity relationship extraction method based on pointer annotation.The domain lexicon is integrated into the character vector representation to enhance domain entity labe-ling.The problem of overlapping entity relations is solved through multi-layer pointer labeling in the field of cross-border ethnic culture.The experimental results show that the F1 value of the proposed method has improved by 2.34%compared with the baseline method on the cross-border ethnic cultural entity relation extraction dataset.
关键词
跨境民族文化/实体关系抽取/指针标注/领域词典信息Key words
cross-border national culture/entity relation extraction/pointer annotation/domain lexicon information引用本文复制引用
基金项目
国家自然科学基金(62166023)
国家自然科学基金(61866019)
云南省自然科学基金(2019FA023)
云南省科技重大专项(202103AA080015)
云南省科技重大专项(202002AD080001)
出版年
2024