太赫兹科学与电子信息学报2024,Vol.22Issue(5) :503-515.DOI:10.11805/TKYDA2023436

实体识别技术研究进展综述

Overview of the research progress in entity recognition technology

马艺洁 赖海光 刘子威 杨楠 张更新
太赫兹科学与电子信息学报2024,Vol.22Issue(5) :503-515.DOI:10.11805/TKYDA2023436

实体识别技术研究进展综述

Overview of the research progress in entity recognition technology

马艺洁 1赖海光 2刘子威 1杨楠 1张更新1
扫码查看

作者信息

  • 1. 南京邮电大学 卫星通信研究所,江苏 南京 210003
  • 2. 南京控维通信科技有限公司,江苏 南京 211135
  • 折叠

摘要

实体识别技术作为知识图谱构建的重要步骤,已广泛用于语义网络、机器翻译、问答系统等自然语言处理中,在推动自然语言处理技术落地实践的过程中起着非常关键的作用.本文根据实体识别技术的发展历程调研了现有的实体识别方法,主要为早期基于规则和词典的实体识别方法、基于机器学习的以及基于深度学习的命名实体识别方法;整理了每种实体识别方法的关键思路、优缺点和具有代表性的模型,特别对目前使用较多的基于双向长短期记忆网络(BiLSTM)模型和基于Transformer模型的实体识别方法进行了概述;介绍了目前主流的数据集以及评价标准.最后,面向未来机器类通信的语义需求,总结了实体识别技术面临的挑战,并对其未来在物联网业务数据方面的发展进行了展望.

Abstract

Entity recognition technology,as an important step in constructing knowledge graphs,has been extensively applied in natural language processing applications such as semantic network,machine translation,and question answering systems.It plays a crucial role in promoting the practical application of natural language processing technology.According to the development process of entity recognition technology,the existing entity recognition methods are investigated in this paper.These methods can be classified as:early rule and dictionary based entity recognition methods,machine learning based entity recognition methods,and deep learning-based entity recognition methods.The core ideas,advantages and disadvantages,and representative models of each entity recognition method are summarized,especially the latest entity recognition methods based on Bi-directional Long Short-term Memory(BiLSTM)and Transformer.Additionally,the current mainstream datasets and evaluation criteria are introduced.Finally,facing the semantic requirements of future machine communication,we have summarized the challenges faced by entity recognition technology,and its future advancement in Internet of Things(IoT)business data is anticipated.

关键词

实体识别/语义提取/深度学习/知识图谱

Key words

entity recognition/semantic extraction/deep learning/knowledge graph

引用本文复制引用

基金项目

国家自然科学基金(U21A20450)

国家自然科学基金(62271266)

江苏省前沿引领技术基础研究专项(BK20192002)

江苏省前沿引领技术基础研究专项(BK20212001)

出版年

2024
太赫兹科学与电子信息学报
中国工程物理研究院电子工程研究所

太赫兹科学与电子信息学报

CSTPCD
影响因子:0.407
ISSN:2095-4980
参考文献量73
段落导航相关论文