计算机科学2021,Vol.48Issue(3) :233-238.DOI:10.11896/jsjkx.191200074

基于上下文相关字向量的中文命名实体识别

Chinese Named Entity Recognition Based on Contextualized Char Embeddings

张栋 陈文亮
计算机科学2021,Vol.48Issue(3) :233-238.DOI:10.11896/jsjkx.191200074

基于上下文相关字向量的中文命名实体识别

Chinese Named Entity Recognition Based on Contextualized Char Embeddings

张栋 1陈文亮1
扫码查看

作者信息

  • 1. 苏州大学计算机科学与技术学院 江苏 苏州 215006
  • 折叠

摘要

命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类.由于用于监督学习的训练数据通常由人工标注,耗时耗力,因此很难得到大规模的标注数据.为解决中文命名实体识别任务中因缺乏大规模标注语料而造成的数据稀缺问题,以及传统字向量不能解决的一字多义问题,文中使用在大规模无监督数据上预训练的基于上下文相关的字向量,即利用语言模型生成上下文相关字向量以改进中文NER模型的性能.同时,为解决命名实体识别中的未登录词问题,文中提出了基于字语言模型的中文NER系统.把语言模型学习到的字向量作为NER模型的输入,使得同一中文汉字在不同语境中有不同的表示.文中在6个中文NER数据集上进行了实验.实验结果表明,基于上下文相关的字向量可以很好地提升NER模型的性能,其平均性能F1值提升了4.95%.对实验结果进行进一步分析发现,新系统在OOV实体识别上也可以取得很好的效果,同时对一些特殊类型的中文实体识别也有不错的表现.

关键词

命名实体识别/语言模型/上下文相关字向量

引用本文复制引用

基金项目

国家自然科学基金(61876115)

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量10
参考文献量26
段落导航相关论文