首页|基于汉字形音义多元知识和标签嵌入的文本语义匹配模型

基于汉字形音义多元知识和标签嵌入的文本语义匹配模型

扫码查看
文本语义匹配指基于给定的文本判别文本之间的语义关系.针对该任务,现有模型的信息编码未考虑利用除汉字字符外的潜在语义信息,且在分类时未考虑标签信息对模型性能的影响.因此,该文提出了一种使用汉字形音义多元知识和标签嵌入的文本语义匹配方法.首先,通过信息编码层对汉字的形音义的多元知识进行编码;其次,通过信息整合层获取融合汉字形音义多元知识的联合表示;然后,经过标签嵌入层利用编码后的分类标签与汉字形音义的联合表示生成信号监督标签;最后,经过标签预测层获取文本层面与标签层面的联合信息表示,进而对文本语义关系进行最终的判别.在多个数据集上的实验结果显示,该文提出的模型优于多个基线模型,验证了模型的有效性.
A Text Semantic Matching Model with Chinese Characters'Glyph,Pinyin and Sense-based Multi-knowledge and Label Embedding
Text semantic matching aims to identify semantic relationships between texts based on the given texts.The existing methods neglect the enhancement and utilization of potential semantic information other than Chinese characters in the encoder and do not consider the impact of label information.Therefore,this paper proposes a text semantic matching method with multi-knowledge and label embedding via language models.Firstly,the information encodeing layer is used to encode the multi-knowledge of Chinese characters glyph,pinyin and sense.Next,the in-formation integration layer is used to get the joint representation of multi-knowledge of Chinese characters'glyph,pinyin and sense.Then,the label embedding layer utilizes the encoded representationof classificationlabels andjoint representation of multi-knowledge to generate the representation of supervised labels.Further,the label prediction layer acquires enhanced joint representations from both the textual and label aspects,and obtains the ultimate pre-diction of semantic relationships.The experiment results on multiple widely used datasets show that the proposed method is effective and outperforms previous state-of-the-art models.

Chinese characters'glyph,pinyin,sense-based multi-knowledgelabel embeddingtext semantic matc-hing

赵云肖、李茹、李欣杰、苏雪峰、施艳蕊、乔雪妮、胡志伟、闫智超

展开 >

山西大学 计算机与信息技术学院,山西 太原 030006

山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原 030006

中译语通科技股份有限公司,北京 100043

山西工程科技职业大学 现代物流学院,山西 晋中 030609

展开 >

汉字形音义多元知识 标签嵌入 文本语义匹配

国家自然科学基金山西省重点研发计划山西省"四个一批"科技兴医创新计划

619360122021020201010082022XM01

2024

中文信息学报
中国中文信息学会,中国科学院软件研究所

中文信息学报

CSTPCDCHSSCD北大核心
影响因子:0.8
ISSN:1003-0077
年,卷(期):2024.38(3)
  • 36