摘要
罕见病是相对常见病、多发病而言发病率极低的一大类疾病的统称。近年来,随着我国社会经济水平的发展,罕见病逐渐受到了社会的广泛关注,并已成为医药卫生领域关注的重点问题。结合我国国情来看,虽然每种疾病发病率极低,但由于罕见病种类繁多,实际上,罕见病患者的群体总数并不小。然而,目前仅有不到10%的罕见病有被批准的治疗药物或方案。因此,罕见病一直是威胁国民健康的重要且亟待解决的难题。 目前我国对罕见病的定义,主要采用疾病目录的形式。《第一批罕见病目录》与《第二批罕见病目录》共同涵盖了207种罕见病,其中收录的大部分是较为常见的罕见病种。然而,不容忽视的是,仍有诸多罕见病仍未获得标准的名称和统一的ICD-10编码。ICD-10编码,作为医院疾病诊断和分类的核心标准,在医生间交流患者信息时发挥着桥梁作用。对于罕见病这一数据本就稀缺的领域来说,缺乏标准的罕见病名称和精确的ICD-10编码,无疑进一步加剧了信息交流的难度。 鉴于上述情况,本研究致力于构建以中国人群为主体的罕见病名录,并为罕见病补充ICD-10编码。为实现这一目标,我们全面整合了与罕见病相关的各类主流疾病数据资源,深度挖掘公开发表的临床病例文章文本,对罕见病名称进行了系统的收集和规范化整理,并提供了数据集成结果的关联查询功能。此外,基于整合和挖掘得到的疾病间表型注释信息的相似性,我们为部分罕见病补充了ICD-10编码。具体的研究工作主要包括以下四个方面。 首先,在实验室已发表的罕见病注释平台eRAM的基础上,整合了GARD、Orphanet、OMIM、DO和MONDO等多个疾病相关数据库中的罕见病信息,基于整合得到的罕见病信息进一步对公开发表的文献中的临床病例文章进行大规模的文本挖掘,以确保将文章中患者患有的每种疾病都被收集到。在对提取的信息进行全面的人工校对和标准化后,得到了包含4455种疾病的中国人群罕见病名录。 其次,在中文人类表型本体(CHPO)的基础上,整合多个数据集中的表型、症状等信息,我们得到了更为完整的表征知识库。并使用共现的方法对公开发表的罕见病病例文献进行文本挖掘,在HPO提供的疾病-表型注释信息的基础上,对名录中的疾病-表型关系进行补充,从而得到更全面的罕见疾病-表型注释信息。 通过第二步获得的完整疾病-表型注释信息,将表型注释信息组成疾病的语句,输入大语言模型(BERT)进行向量嵌入,并基于文本语义相似度的方法计算疾病向量与已有ICD编码的疾病向量的相似度,将相似度最高的ICD编码赋予给相应疾病,最终为名录中122种罕见病补充了ICD-10编码。在此基础上,将向量嵌入生成的高维疾病向量降维后聚类,根据聚类结果对ICD编码效果进行进一步分析。 《中国人群罕见病名录》的确定,提供了在我国确有发生的罕见病的标准疾病名称,并基于现有的ICD疾病编码,为部分疾病补充了ICD-10编码,为医院间统一罕见病ICD编码提供了思路。