计算机技术与发展2022,Vol.32Issue(9) :161-166,179.DOI:10.3969/j.issn.1673-629X.2022.09.025

分层区域穷举的中文嵌套命名实体识别方法

Layered Regional Exhaustive Model for Chinese Nested Named Entity Recognition

余诗媛 郭淑明 黄瑞阳 张建朋 胡楠
计算机技术与发展2022,Vol.32Issue(9) :161-166,179.DOI:10.3969/j.issn.1673-629X.2022.09.025

分层区域穷举的中文嵌套命名实体识别方法

Layered Regional Exhaustive Model for Chinese Nested Named Entity Recognition

余诗媛 1郭淑明 2黄瑞阳 2张建朋 2胡楠1
扫码查看

作者信息

  • 1. 郑州大学 软件学院,河南 郑州 450001;国家数字交换系统工程技术研究中心,河南 郑州 450002
  • 2. 国家数字交换系统工程技术研究中心,河南 郑州 450002
  • 折叠

摘要

嵌套命名实体之间蕴含着丰富的语义关系与结构信息,开发能够准确识别嵌套命名实体的算法具有重要研究意义.针对现有的中文嵌套命名实体数据集中存在错标漏标以及现有识别方法大多忽略嵌套实体内部信息关联关系而导致准确性下降的问题,结合自动生成与手动标注的方法构建新的中文嵌套命名实体数据集NEPD,在此基础上,设计一种利用分层区域穷举的中文嵌套命名实体识别模型.该模型通过遍历文本组合实体,获取低层编码层的词嵌入信息;其次,为使邻接编码层之间实现信息交换,将低层编码层的词嵌入信息融入高层编码层;最后,利用多层解码层使长度为L的命名实体仅在第L层预测,有效防止错误传播现象发生从而提高识别准确度.实验结果表明,在没有外部知识资源的情况下,LREM模型在嵌套命名实体与非嵌套命名实体上的识别F1值分别达到87.19%和86.27%,其中非嵌套命名实体识别的F1值比传统的BiLSTM+CRF模型提升1.18%,验证了该模型的可靠性.

关键词

嵌套命名实体识别/分层区域穷举/卷积神经网络/双向长短时记忆网络/信息抽取

引用本文复制引用

基金项目

出版年

2022
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量1
段落导航相关论文