摘要
随着医学领域知识的不断积累和信息化程度的提高,越来越多的医学文本数据被数字化存储和传播,如医学论文、临床数据、电子病历等。这些数据中蕴含着疾病、症状、药物、治疗方案等,但是这些知识大多存在于文本中,无法被机器直接识别和利用,给医学研究和应用带来了巨大的挑战。因此,开展面向中文医学文本的命名实体识别、关系抽取及知识图谱构建研究,有助于将这些分散的医学知识整合到一个统一的知识图谱中,形成结构化的医学知识库,方便医学研究人员和临床医生查找、分析和应用这些知识。 本文主要针对中文医学文本中的命名实体识别和实体关系抽取进行研究,并结合收集到的部分疾病知识构建了一个疾病知识图谱,具体研究内容为: 1)在中文医学文本命名实体识别研究中,针对中文电子病历数据专业性强、语法结构复杂、训练数据稀少、医学术语中存在大量的缩写词、无法准确识别正确的实体等问题。首先利用卷积神经网络模型提取汉字图像信息,并与五笔特征拼接起来丰富汉字的语义信息;然后,利用 FLAT模型中的 Lattice将医学辞典作为潜在词组匹配文本信息;最后将融入语义信息的 Lattice模型用于中文文本电子病历命名实体识别。实验结果表明,该方法在Yidu-S4K数据集上的识别性能超过现有多种算法,且具有较好的鲁棒性,在Resume数据集上F1值可达到96.06%。 2)在中文医学文本实体关系抽取研究中,针对中文医学实体存在大量的多义词和歧义、实体分布密度较高﹑关系交错互联等问题,首先利用依存句法树分析医学文本词语之间的依存关系,再利用图注意力神经网络计算不规则的关系依赖特征,与实体跨度对的悬浮标记拼接后,通过前馈神经网络融合,减少模型对数据规模的依赖并增加对文字表征的理解能力,以此提升中文医学文本实体关系抽取的准确率。结果表明,该方法在CMeIE数据集上的识别性能超过现有多种算法。 3)通过知识图谱相关技术的研究,利用 Neo4j数据库构建疾病知识图谱,并基于知识图谱搭建出一个简单的疾病诊疗系统。旨在通过将疾病、症状、病因、诊断方法、治疗方法等信息整合到一起,帮助医学研究人员、医生和患者更好地了解疾病及其治疗方式。