摘要
目的: 临床病历文本中包含着非常丰富而又杂乱的信息,当用户需要调取病历中的信息时往往非常麻烦,里面的重要信息也会因此而遗漏。中医是我国的传统医学,经过几千年的沉淀,其中包括了大量有价值的信息,但是目前绝大部分的中医电子病历数据以非结构化的形式存储的,这就导致用户难以获得其中的信息。本文的研究任务就是对中医电子病历中的各类实体类型进行识别,将非结构化数据转变为易于存储且获取方便的结构化数据。 方法: 为了实现以上目的,本文提出基于Bert-BiLSTM-CRF模型的中医电子病历命名实体识别模型来完成该任务。Bert-BiLSTM-CRF模型作为当前深度学习领域性能优越的模型之一,在其他领域已经大放异彩,将其引入中医领域是为了让最终的模型可以获得不错的性能。在此基础上,本文还设计了对应的数据处理方案来提升最终的模型性能。 结果: 根据上文所提到的方法,本文完成了以下的工作: (1)设计标签体系和评测指标。笔者对五种标注体系进行了说明,并且最终选择使用BIO标注体系来完成实验。评价体系则以深度学习领域使用较多的准确率、召回率、F1-Measure为评测指标; (2)完成对数据的收集和处理,由于中医的特殊性,本文使用的数据集主要来源于广东省某三甲中医院所提供的中医病历文本,为了使训练的模型更具有泛用性和更好的性能,本文还增加了CCKS2018医疗文本识别任务的数据集和CHIPS2020中医文本数据集以及人民日报语料集作为补充数据。对上述的数据进行重新标注和清洗后再进行了下一步的工作; (3)本文基于自然语言处理,研究中医电子病历实体信息识别技术,提出了BERT-BILSTM-CRF模型来识别病历中中医信息实体。使用从广东省某三甲中医院得到的电子病历作为数据来源结合当前公开的数据集来进行实验,将所有数据以1∶9的比例进行划分得到训练集和验证集,在进行训练后得到了准确率为0.8908、召回率为0.8487、F1为0.8685的中医电子病历中医实体信息识别模型,并且与其他传统BiLSTM-CRF模型和BiLSTM模型进行对比实验后发现BERT-BILSTM-CRF模型效果更好。 结论: 本论文提出的BERT-BILSTM-CRF模型能够有效实现中医电子病历的命名实体识别,可识别的实体类型包括:患者的隐私信息、舌象、苔象、脉象、中医诊断、中医处方、中医症状。该模型可以提高中医实体识别准确率。