中国中医药信息杂志2021,Vol.28Issue(5) :20-24.DOI:10.19879/j.cnki.1005-5304.202002142

基于LSTM-CRF的中医医案症状命名实体抽取研究

Study on Named Entity Extraction of TCM Clinical Medical Records Symptoms Based on LSTM-CRF

高佳奕 杨涛 董海艳 史话跃 胡孔法
中国中医药信息杂志2021,Vol.28Issue(5) :20-24.DOI:10.19879/j.cnki.1005-5304.202002142

基于LSTM-CRF的中医医案症状命名实体抽取研究

Study on Named Entity Extraction of TCM Clinical Medical Records Symptoms Based on LSTM-CRF

高佳奕 1杨涛 1董海艳 1史话跃 2胡孔法1
扫码查看

作者信息

  • 1. 南京中医药大学人工智能与信息技术学院,江苏南京210023
  • 2. 南京中医药大学中医学院,江苏南京210023
  • 折叠

摘要

目的 研究中医医案中症状命名实体的抽取方法,为中医临床信息的自动化抽取提供方法学参考.方法 基于已标注过的名老中医诊治肺癌医案构建长短时记忆网络(LSTM)与条件随机场(CRF)混合模型,应用LSTM层结合预训练字向量抽取医案的抽象特征,通过CRF进行序列标注,使用多分类评价指标对抽取结果进行评价.同时设计不同变体的算法,在肺癌数据集上进行测试,分析比较不同模型的优劣.结果 带有Peephole机制的双向LSTM识别效果最好,其症状词的3个评价指标准确率(P)、召回率(R)和F1-测度值(F1)分别为0.844 6±0.022 7、0.840 2±0.019 2、0.842 3±0.019 4,程度词分别为0.813 5±0.028 0、0.833 4±0.045 6、0.822 9±0.032 6,部位词分别为0.766 3±0.082 7、0.720 6±0.078 7、0.740 5±0.068 2.结论 利用带有 Peephole机制的双向LSTM能够有效实现中医医案症状命名实体识别,提高传统CRF模型的召回能力.

关键词

长短时记忆网络/条件随机场/中医医案/命名实体识别/信息抽取

引用本文复制引用

基金项目

国家自然科学基金(81674099)

国家重点研发计划(2017YFC1703506)

江苏省护理学优势学科建设项目(2019YSHL068)

出版年

2021
中国中医药信息杂志
中国中医科学院中医药信息研究所

中国中医药信息杂志

CSTPCDCSCD
影响因子:0.889
ISSN:1005-5304
被引量10
参考文献量3
段落导航相关论文