数据分析与知识发现2024,Vol.8Issue(2) :56-64.DOI:10.11925/infotech.2096-3467.2022.1190

基于多元相似度融合的中文命名实体消歧方法

Chinese Named Entity Disambiguation Based on Multivariate Similarity Fusion

石水倩 金晶 沈耕宇 王宝佳 任妮
数据分析与知识发现2024,Vol.8Issue(2) :56-64.DOI:10.11925/infotech.2096-3467.2022.1190

基于多元相似度融合的中文命名实体消歧方法

Chinese Named Entity Disambiguation Based on Multivariate Similarity Fusion

石水倩 1金晶 1沈耕宇 1王宝佳 1任妮1
扫码查看

作者信息

  • 1. 江苏省农业科学院农业信息研究所 南京 210014
  • 折叠

摘要

[目的]解决文本中多个不同含义的同名实体在映射到知识库时产生的歧义问题,提高实体消歧的准确率.[方法]提出一种多元相似度融合方法,考虑实体上下文的语义相似度、实体属性的背景相似度和主题词的主题相似度,对实体进行刻画.[结果]在维基百科农业方向数据集上的实验结果表明,本文所提方法准确率为89.7%,优于传统方法.[局限]方法仅在特定领域适用.[结论]本文所提多元相似度融合方法较传统方法和主流消歧方法具有更高的实体消歧准确率,能够解决特定领域的实体消歧问题,未来可将其应用于更广泛的实体消歧场景中.

Abstract

[Objective]This paper aims to solve the ambiguity problems arising from mapping multiple entities of the same name with different meanings to a knowledge base.It improves the accuracy of entity disambiguation.[Methods]We proposed a multi-dimensional similarity fusion method.It utilizes the semantic similarity of entity context,the entity attributes'background similarity,and the topic words'semantic similarity to characterize entities.[Results]We examined the new model on the agricultural dataset from Wikipedia.The proposed method achieved an accuracy of 89.7%,outperforming traditional methods.[Limitations]The proposed method is only applicable in specific fields.[Conclusions]The new method addresses the entity disambiguation issues in specific fields.It can be applied to a broader range of entity disambiguation scenarios.

关键词

实体消歧/相似度/上下文词向量/实体属性/主题词向量

Key words

Entity Disambiguation/Similarity/Contextual Word Vector/Entity Properties/Topic Word Vector

引用本文复制引用

基金项目

国家社会科学基金(19BTQ032)

出版年

2024
数据分析与知识发现
中国科学院文献情报中心

数据分析与知识发现

CSTPCDCSSCICHSSCD北大核心EI
影响因子:1.452
ISSN:2096-3467
参考文献量25
段落导航相关论文