摘要
中文医学自然语言处理中的临床命名实体识别是一个基础任务,旨在识别临床电子病历文本中的非结构化实体,其中包括诊断和治疗等信息。近年来,随着深度学习技术的迅速发展,深度神经网络在中文临床命名实体识别任务中得到广泛应用。然而,目前中文临床命名实体识别(ClinicalNamedEntityRecognition,CNER)中,复杂的医学实体很难被识别且未能充分挖掘文本的全局信息和语义特征。独立的特征提取器在提取信息方面也存在不足,通常无法全面考虑文本的整体和局部信息,从而未能满足同时提取全局和局部特征的要求。在中文命名实体识别任务中,与英文不同的是,在中文文本中,没有类似于空格和首字母大写等标识符来确定实体边界。此外,汉语词汇多义性较强,同一词在不同语境下可能有不同的意义,这增加了实体边界识别的难度。针对前述问题,本文提出了两个结合深度学习的中文临床文本命名实体识别模型,主要研究工作如下: (1)为应对传统命名实体识别模型在特征单一和语义表达不足方面的挑战,提出了一种融合多特征嵌入的中文命名实体识别模型(MDB-BC),通过融合多种嵌入表示来改善性能。该模型包括多层神经网络层,在输入层应用百度ERNIE2.0将原始的临床文本序列转换成模型可接受的数字向量矩阵,以便进一步计算。在嵌入层将字义信息与词根、拼音、五笔等特征信息拼接成最终的词向量,通过多尺度融合层进一步捕捉输入数据的全局信息。接下来将融合向量输入到BILSTM层中,利用BILSTM在提取序列的上下文特征方面的优势学习单词在句中的长期依赖关系以及上下文信息。最后,将输出输送到CRF层,得到最可能的标签序列。 (2)为了更好地捕捉语境信息和提取局部特征以获得更丰富的表示,本文在MDB-BC模型中专门设计了一种复合神经网络,多尺度融合层。它由BERT、DCNN两部分并联组成,分别应用于输入文本。将它们的特征联合起来,形成一个综合的特征表示。其主要作用是利用它们在不同层次和尺度上的优势,允许模型同时捕捉全局语义信息和局部特征。 (3)针对单一神经网络的架构只能学习到部分有限的特征,而无法涵盖整体的语义信息的问题,本文提出了强化特征学习模型MDB-GBSA,利用MDB-BC模型得到的融合嵌入表示,对特征提取环节进行了优化。通过并行使用BiGRU和BiLSTM网络,充分发挥了BiLSTM在建模上下文全局信息方面的优势,同时考虑了BiGRU帮助模型更好地处理长距离依赖关系和序列中的局部特征的能力,通过互相补充和交叉验证,使模型更好地适应不同位置的输入数据,提高模型对序列语义的理解和学习能力。此外,还引入了多头自注意力机制,进一步提取临床文本中重要的语义特征,采用多元化策略提升模型的特征提取效率,并通过CRF层获取模型输出的最佳标签序列。 (4)在CCKS2017和CCKS2019两个数据集上的验证表明,本研究提出的两个模型在提升中文临床文本命名实体识别效果方面取得了显著成果,验证结果充分证实了模型的有效性和鲁棒性。