首页|面向新词义原推荐的相似性判别方法

面向新词义原推荐的相似性判别方法

A Similarity Calculating Method for the Sememe Recommendation of New Words

扫码查看
义原(Sememe)是构成《知网》(HowNet)概念描述的核心部件,新词概念描述义原的推荐是 HowNet自动或半自动扩展中涉及的关键问题.面向新词义原推荐,该文提出一种融合义原注意力的预训练语言模型优化方法——SaBERT.在判别新词与 HowNet词表词之间的语义相似性的过程中,该方法利用词表词已知概念描述义原序列的注意力分布,以相似性同构为目标,对基于BERT+CNN的相似性判别模型进行优化,从而为义原推荐任务提供相似概念集合.实验结果表明,采用 SaBERT可以有效解决未登录词与词表词的相似性判别问题,准确率、召回率、F1 值分别达到 0.831 4、0.800 7 和 0.815 8.在基于协同过滤框架的义原推荐任务上进行的实验表明,相似性同构程度与义原推荐效果正相关,说明该文方法能够有效解决候选义原选择问题.
Sememe is the core component that constitutes the conceptual description of words in HowNet,and the recommendation of sememes for describing new words or concepts is crucial for the automatic or semi-automatic ex-tension of HowNet.Focusing on the sememe recommendation of new words,this paper proposes a sememe attention enhanced pre-training language model named SaBERT.To estimate the similarity between a new word and an in-vocabulary word of HowNet,we employ the existing concepts of the in-vocabulary word to describe the atten-tion distribution of the sememe sequence,and optimize the BERT+CNN model with an objective of similarity iso-morphism.Experimental results show that SaBERT achieves achieve 0.831 4,0.800 7 and 0.815 8 for precision,re-call and F1 value,respectively.

sememe recommendationsimilarity isomorphismHowNet

白宇、田雨、王之光、张桂平

展开 >

南京航空航天大学 计算机科学与技术学院,江苏 南京 210016

沈阳航空航天大学 人机智能研究中心,辽宁 沈阳 110136

义原推荐 相似性同构 知网

国家自然科学基金辽宁省重点研发计划

U19082162019JH2/10100020

2024

中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
年,卷(期):2024.38(1)
  • 28