计算机技术与发展2023,Vol.33Issue(9) :119-125.DOI:10.3969/j.issn.1673-629X.2023.09.018

基于多层次特征提取的中文医疗实体识别

Chinese Medical Entity Recognition Based on Multi-level Feature Extraction

李正辉 廖光忠
计算机技术与发展2023,Vol.33Issue(9) :119-125.DOI:10.3969/j.issn.1673-629X.2023.09.018

基于多层次特征提取的中文医疗实体识别

Chinese Medical Entity Recognition Based on Multi-level Feature Extraction

李正辉 1廖光忠2
扫码查看

作者信息

  • 1. 武汉科技大学 计算机科学与技术学院,湖北 武汉 430065
  • 2. 武汉科技大学 智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉 430065
  • 折叠

摘要

中文医疗实体识别是医疗领域文本信息处理的基础,但中文医疗文本中常常存在语法不规范、实体嵌套和类型易混淆等问题易造成实体识别精度下降,因此确保中文医疗实体识别的准确度具有较大的理论研究和实际应用价值.为此,提出一种融合BERT预训练、双向长短期记忆网络(BILSTM)和结合注意力机制的空洞卷积网络(IDCNN)的实体识别模型来提升中文医疗实体识别的精度.起先,使用BERT预训练语言模型使中文字符转换为词向量并增强其语法语义特征;而后将训练好的词向量分别通过BILSTM网络和加入注意力机制的IDCNN网络获取上下文信息和更大的感受野;最终将蕴含语法语义特征、上下文信息和更大的感受野信息的特征融合并输入到条件随机场(CRF)中进行实体预测.在两个公开的医疗数据集CMeEE/Yidu-S4K上的实验表明,该模型的F1 值分别达到了0.711 6 和0.820 6,较主流模型分别提高了1.40 百分点和2.29 百分点,验证了此模型在中文医疗实体识别上的有效性.

关键词

实体识别/BERT预训练/空洞卷积网络/注意力机制/感受野

Key words

entity recognition/BERT pre-training/IDCNN/mechanism of attention/receptive field

引用本文复制引用

基金项目

国家自然科学基金(61502359)

出版年

2023
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
参考文献量9
段落导航相关论文