摘要
【目的】对中文脑卒中电子病历特点进行分析,制定其命名实体标注规范,构建脑卒中专病的电子病历命名实体语料库,并借助预训练模型等深度学习的方法实现中文电子病历命名实体识别任务,通过对不同模型识别效果之间的比较评价,确定其中最佳的命名实体识别模型,为实现电子病历知识的深度挖掘、知识图谱构建等研究提供支持。 【方法】 (1)文献研究法:通过多种渠道查阅了解命名实体识别的发展历程,同时深入学习机器学习与深度学习的相关理论,特别是在命名实体识别研究中的相关应用和实践。 (2)专家访谈法:通过咨询自然语言处理领域的专家以及一线的临床医护人员,保证标注工作的权威性和准确性,协助研究的推进。 (3)深度学习与机器学习组合方法:将双向长短期记忆网络和条件随机场相结合来实现命名实体的识别,使模型在学习到电子病历上下文信息的同时,提高了输出结果的合理性和准确性。 (4)预训练模型:使用预训练模型BERT(Bidirectional Encoder Representations from Transformers)和ERNIE(Enhanced Representation from kNowledge IntEgration)来进行脑卒中电子病历的特征提取,通过微调的方法使用其生成的字向量作为下一层神经网络的输入。 【结果】 (1)通过分析脑卒中中文电子病历的结构特点和语言特点,结合病历内容确定了五个实体类别,制定了脑卒中电子病历标注规范,经过预标注和正式标注两轮,构建了脑卒中中文电子病历命名实体语料库,共包含69222个实体,正式标注的一致性达到了94.56%。 (2)搭建了双向长短期记忆网络加条件随机场的命名实体识别模型,将标注好的语料导入到模型中进行训练,生成了适用于脑卒中中文电子病历命名实体识别的序列标注模型。 (3)在BiLSTM(Bi-directional Long Short-Term Memory)-CRF(Conditional Random Fields)下游模型的基础上,借助word2vec词向量生成和字向量生成实现的命名实体识别实验取得的最高F1值为89.05%和90.69%,而基于预训练模型BERT和ERNIE微调方法的实验取得的最高F1值为93.51%和94.18%。 【结论】 (1)脑卒中中文电子病历中包含有大量的命名实体,使用深度学习的方法可以有效地对其进行识别和抽取。 (2)在相同的条件下,基于word2vec特征提取的字符级别的文本实验结果要优于词语级别的文本实验结果。 (3)相较于传统的语言模型,BERT及ERNIE等预训练模型能够学习到更多的语言特征,具有更强的特征提取能力,并且在专业化程度较高的医疗领域同样有效,不需要经过重新训练,具有很好的适用性。 (4)基于ERNIE预训练模型微调的方法,将其提取的特征输入BiLSTM-CRF模型,可以较完整的学习到电子病历中的语言文本特征,达到很好的命名实体识别效果。可以使用此模型进一步实现信息提取、机器翻译、问答系统等应用。