摘要
在互联网和大数据蓬勃发展背景下,医疗领域涌现出了大量关于医学研究、医疗记录的医学文本数据,这些数据包括病历、临床试验报告等。为了有效地处理和利用这些非结构化文本数据,各类文本数据处理技术迅速发展。其中,命名实体识别技术在医疗领域研究中具有重要的现实意义,它有助于从大量医学文本中提取关键信息,为医学研究和医疗决策提供更广泛的数据支持。本课题对中文医疗命名实体识别问题进行研究,旨在使用合理的方法更准确地从医学文本中提取出有重要价值的医学实体信息,从而促进后续医学研究、提高临床决策效率。具体研究内容包括以下: (1)针对医学领域标注数据量少、传统数据增强方法随机性较强的问题,提出一种基于规则的数据增强方法。首先,根据数据集构造同类实体集合,然后引用CHIP2020外部资源扩充部分实体集,随后使用Roformer预训练模型获取医学实体的词向量表示,并通过计算实体词向量之间的余弦相似度来对同类医学实体进行替换,最后,对文本中的实体进行掩盖后再对非实体词进行随机替换、删除、插入操作。实验表明,该方法比EDA数据增强方法更好,能生成多样化的文本数据。 (2)由于提出的基于规则的数据增强方法生成的文本在语义和结构上与原始样本非常接近。为生成语义结构更丰富的文本,提出了基于单词角色的选择性数据增强方法。首先引入单词角色,根据词语在医疗文本中的重要性程度不同,把文本中的非医学实体词语划分为四类,然后选择采取替换、保留、删除、掩盖操作,生成一个保留了原文本的核心语义的草稿,最后使用GENIUS文本生成模型对草稿进行填充,生成新的医疗文本。实验表明,该方法比基于规则的数据增强方法能生成更多样化、语义更丰富的文本,且最能提升模型识别实体的能力。 (3)针对医疗命名实体识别模型的语义信息提取不充分的问题,提出融合字结构特征的中文医疗命名实体识别方法。该方法在BERT-TENER-CRF模型基础上构造了一个语义信息增强器来获取额外的语义信息,具体步骤是,根据汉字的部首结构反映了其语义信息、部首结构相似的汉字反映了相似的语义信息特点,使用卷积神经网络提取部首结构最相似的汉字结构特征信息,然后使用基于注意力和权重的方法将它们的语义特征信息有效融合,获得语义增强信息。最后构造语义信息融合模块,使用重置门将语义信息增强器提取到的语义增强信息有效融入主要命名实体识别模型中。在CCKS2019和CCKS2020数据集上进行实验,结果表明本文提出的模型较传统模型具有明显的性能提升。