中文信息学报2024,Vol.38Issue(5) :65-75.

基于PCNN相似句袋注意力的远程监督关系抽取方法

Distant Supervision Relation Extraction Based on PCNN Similar Bag Attention

吴介坤 李卫疆
中文信息学报2024,Vol.38Issue(5) :65-75.

基于PCNN相似句袋注意力的远程监督关系抽取方法

Distant Supervision Relation Extraction Based on PCNN Similar Bag Attention

吴介坤 1李卫疆1
扫码查看

作者信息

  • 1. 昆明理工大学信息工程与自动化学院,云南昆明 650500;昆明理工大学云南省人工智能重点实验室,云南昆明 650500
  • 折叠

摘要

在关系抽取任务中,远程监督通过对齐知识库(KB)和文本来自动生成训练数据,从而解决了人工标注数据的问题.然而,远程监督不可避免会伴随着错误标签的问题.为了解决错误标签的问题,该文提出了基于PCNN(分段卷积神经网络)相似句袋注意力的远程监督关系抽取方法(PCNN-PATT-SBA),该模型提出了基于高斯分布的位置注意力机制(PATT),通过对非实体词与实体词之间的位置关系建模,为句子中每个单词分配相应的权重,从而降低噪声词的影响.另外,基于不同句袋之间的特征相似性,该文提出了相似句袋注意力机制(SBA),通过融合相似句袋的特征,从而达到解决单句子句袋信息过少的问题.在数据集New York Times(NYT)上的实验结果证明了该文提出方法的有效性,并且相对于句袋间注意力模型,在P@N值上提高了 6.9%.

Abstract

In the task of relation extraction,distant supervision automatically generates training data by aligning the knowledge base(KB)and text,thereby solving the problem of manual data annotation.However,distant supervi-sion will inevitably be accompanied by the problem of wrong labeling.In order to solve the problem of wrong labe-ling,this paper proposes a distant supervision relation extraction method based on PCNN(piecewise convolutional neural networks)similar sentence bag attention(PCNN-PATT-SBA).This model proposes the position attention mechanism(PATT)based on Gaussian distribution,which models the position relationship between non-entity words and entity words,assigns corresponding weights to each word in the sentence,thereby reducing the influence of noise words.In addition,based on the feature similarity between bag-of-sentences,this paper proposes the similar sentence bag attention mechanism(SBA),which can enrich a single sentence bag by merging the characteristics of similar bags.The experimental results on the dataset New York Times(NYT)prove the proposed method increases the P@N by 6.9%compared to the inter-cross-bag model.

关键词

远程监督/位置特征/相似度/注意力机制/高斯分布

Key words

distant supervision/position feature/similarity/attention mechanism/Gaussian distribution

引用本文复制引用

基金项目

国家自然科学基金(62066022)

出版年

2024
中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCSCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
参考文献量16
段落导航相关论文