首页|基于特征增强的中文命名实体识别方法研究

基于特征增强的中文命名实体识别方法研究

靳从建

基于特征增强的中文命名实体识别方法研究

靳从建1
扫码查看

作者信息

  • 1. 重庆邮电大学
  • 折叠

摘要

中文命名实体识别在自然语言处理应用中有着重要的作用,这种识别任务非常复杂,因为汉语文本缺乏自然的分隔词,实体的边界难以识别。对于这一任务,根据模型的输入可以区分两种主要的方法,即基于单词的模型和基于字符的模型。然而,基于单词的模型依赖于中文分词结果,而基于字符的模型不能充分利用词级信息。针对这一问题,本文提出了基于词汇增强的实体识别模型。另外,针对嵌套实体问题本文提出了基于动态span图的实体识别模型。本文的研究工作如下: (1)提出了一种基于词汇增强的实体识别模型。首先利用多粒度嵌入层提供丰富的底层信息,第一部分由预训练模型BERT提供字特征,该特征具有丰富语义信息;第二部分通过汉字增强网络提取字形特征,从汉字内部结构充分挖掘字符的形态学语义信息;第三部分利用注意机制获得词级特征。然后提出了两种特征融合方法GFM和ISDFF动态的适应不同数据,最后提出了双神经网络语义编码模块,将双向长短期记忆网络和自我注意机制与空洞卷积神经网络相结合,以更好地捕获上下文信息。 (2)提出了一种基于动态span图的实体识别模型。首先通过将实体识别任务转化为QA任务引入先验标签知识,并提出了一种基于P-tuning方式的自动Query构造方法;其次为了解决传统QA方式效率低下和标签信息利用不充分问题,提出了一种新的范式即对文本和Query分别编码,并通过语义融合模块将标签知识显式的融合到文本中,接着通过指针网络枚举实体片段,并提出了一种基于概率的匹配算法,最后通过共指关系构建动态span图,通过共指传播优化span表示,实现了span的全局信息整合,从而完成了嵌套实体和扁平实体的统一识别。 在四个扁平实体数据集和两个嵌套实体数据集上的实验表明,第三章所提方法不仅在模型效果上优于其他对比算法,而且由于本文所用方法采用了embedding自适应的方式融合词汇信息,避免了设计复杂的结构兼容词信息,在推理速度上也获得了更优的结果。第四章所提方法,在扁平实体识别和嵌套实体识别均取得了最优效果,并且与传统QA范式相比,在训练时间和推理时间分别平均减小了73.5%和 69.8%。

关键词

中文命名实体识别/词汇增强/特征融合/动态span图/双向长短期记忆网络/自我注意机制/空洞卷积神经网络

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

王进

学位年度

2023

学位授予单位

重庆邮电大学

语种

中文

中图分类号

TP
段落导航相关论文