摘要
无监督关系抽取旨在从无标签的自然语言文本中抽取实体之间的语义关系.目前,基于变分自编码器(VAE)架构的无监督关系抽取模型通过重构损失提供监督信号来训练模型,这为完成无监督关系抽取任务提供了新思路.针对此类模型无法有效地理解上下文信息、依赖数据集归纳偏置的问题,提出基于Prompt学习的无监督关系抽取(PURE)模型,其中包括关系抽取和链接预测两个模块.在关系抽取模块中设计了上下文感知的Prompt模板函数以融入上下文信息,并将无监督关系抽取任务转换为掩码预测任务,从而充分利用预训练阶段获得的知识完成关系抽取.在链接预测模块中则通过预测关系三元组中的缺失实体提供监督信号联合训练两个模块.在两个公开真实关系抽取数据集上进行了大量实验,得到的结果表明PURE模型能有效利用上下文信息并且不依赖数据集归纳偏置,相较于目前最优的基于VAE架构的模型UREVA(Variational Autoencoder-based Unsupervised Relation Extraction model)在NYT数据集上的B-cubed F1指标上提升了3.3个百分点.
基金项目
国家自然科学基金资助项目(61972268)
四川大学"医学+信息"中心融合创新项目(YGJC001)
National Natural Science Foundation of China(61972268)
Project of Med-X Center for Informatics,Sichuan University(YGJC001)