摘要
电子病历命名实体识别是医疗领域信息化建设的重要前提任务,但由于电子病历本身较高的数据敏感性和标注困难性,目前公开可用的数据资源相对较少,导致该领域的命名实体识别难以达到实用水平。为此,本文以预训练模型BERT和Transformer的编码器为基础架构,引入多任务学习和领域自适应两种迁移学习方法,并应用基于片段的解码方式和对抗训练方法来提高电子病历命名实体识别的性能。 针对现有命名实体识别模型的实体相关特征抽取不足问题,提出多任务标签感知Transformer模型:一方面,针对Transformer纵向多层网络结构中的浅层信息利用不足问题,基于实体边界预测和实体类别预测两个命名实体识别相关辅助任务,采用分层多任务迁移学习的模式建模;另一方面,针对Transformer横向多头自注意力机制中的注意力头随机投影问题,提出配合多任务学习模式的标签感知单元。根据每一层的实际标签意义,为注意力头分配不同的投影方向,提高注意力头对当前任务的参与度。在多个不同领域数据集上的结果表明,多任务标签感知Transformer模型能够在不使用任何外部资源的情况下,取得接近应用了词典或中文字形信息的命名实体识别模型的性能结果。 针对命名实体识别模型在不同电子病历语料之间的迁移困难问题,提出基于标签共享的领域自适应方法。该方法基于不同语料间的相似实体类别来构建共享编码器和私有编码器,以部分迁移学习的方式实现跨领域的电子病历命名实体识别。首先,利用具备标签感知能力的多头自注意力机制,配合实体类别预测任务完成各编码器间的分工合作。然后,针对电子病历数据的标注特点,使用基于片段的解码方法来识别嵌套实体,并基于堆栈和无向图结构设计了实体过滤算法以适应无嵌套数据。最后,在训练阶段,通过主动引入扰动信息来构建对抗样本,以降低数据噪声对跨域知识迁移的干扰。在两个评测数据集上的实验结果表明,相比于传统的迁移学习方法,基于标签共享的领域自适应方法在电子病历命名实体识别任务上能够取得更高的识别性能。