计算机工程与设计2024,Vol.45Issue(4) :1079-1086.DOI:10.16208/j.issn1000-7024.2024.04.017

基于深度字词融合的小麦种质信息实体关系联合抽取

Joint extraction of wheat germplasm information entity relationship based on deep character and word fusion

刘合兵 贾笑笑 时雷 熊蜀峰 马新明 席磊
计算机工程与设计2024,Vol.45Issue(4) :1079-1086.DOI:10.16208/j.issn1000-7024.2024.04.017

基于深度字词融合的小麦种质信息实体关系联合抽取

Joint extraction of wheat germplasm information entity relationship based on deep character and word fusion

刘合兵 1贾笑笑 2时雷 1熊蜀峰 1马新明 1席磊1
扫码查看

作者信息

  • 1. 河南农业大学信息与管理科学学院,河南郑州 450046;河南农业大学河南省农田环境监测与控制工程实验室,河南郑州 450002
  • 2. 河南农业大学信息与管理科学学院,河南郑州 450046
  • 折叠

摘要

为获得结构化的小麦品种表型和遗传描述,针对非结构化小麦种质数据中存在的实体边界模糊以及关系重叠问题,提出一种基于深度字词融合的小麦种质信息实体关系联合抽取模型 WGIE-DCWF(wheat germplasm information ex-traction model based on deep character and word fusion).模型编码层通过深度字词融合和上下文语义特征融合,提高密集实体特征识别能力;模型三元组抽取层建立层叠指针网络,提高重叠关系的提取能力.在小麦种质数据集和公开数据集上的一系列对比实验结果表明,WGIE-DCWF模型能够有效提高小麦种质数据实体关系联合抽取效果,同时拥有较好的泛化性,可以为小麦种质信息知识库构建提供技术支撑.

Abstract

To obtain structured phenotypic and genetic descriptions of wheat varieties,the wheat germplasm information extrac-tion model based on deep character and word fusion(WGIE-DCWF)was proposed to address the problems of fuzzy entity boun-daries and overlapping relationships in unstructured wheat germplasm data.The model's encoding layer,facilitated by the deep character and word fusion module and fusion of contextual semantic features,enhanced the recognition capability of dense entity features.A cascading pointer network was established in the model's triple extraction layer to improve the extraction capability of overlapping relationships.A series of comparative experiments on wheat germplasm datasets and public datasets demonstrate that the WGIE-DCWF model effectively improves the joint entity and relation extraction in wheat germplasm data.Furthermore,it exhibits strong generalization capabilities,making it a valuable technical asset for the construction of a knowledge base for wheat germplasm information.

关键词

小麦种质信息/字词融合/实体关系抽取/联合抽取/层叠指针网络/实体识别/关系抽取

Key words

wheat germplasm information/character and word fusion/entity relationship extraction/joint extraction/cascading pointer network/named entity recognition/relation extraction

引用本文复制引用

基金项目

国家自然科学基金项目(31501225)

河南省科技研发计划联合基金项目(222301420113)

河南省现代农业产业技术体系基金项目(S201001G04)

出版年

2024
计算机工程与设计
中国航天科工集团二院706所

计算机工程与设计

CSTPCD北大核心
影响因子:0.617
ISSN:1000-7024
参考文献量27
段落导航相关论文