摘要
随着国民健康意识的不断增强,健康体检需求出现大幅度增长。体检人数增加及体检项目日益多样化使得各级各类体检机构中积累了海量体检数据,这些数据往往蕴含着丰富的医学信息。如何从体检数据中发现隐含的知识,并辅助医生实施有效的健康管理已成为当前健康信息挖掘研究中的一个热点问题。目前的研究工作通过设计挖掘算法来发现体检中因素或者因素组合与疾病间的关联性,其研究结果表明多目标进化优化算法在体检数据关联性挖掘中的有效性。然而,在这些研究工作中,体检数据自身的特点并没有被加以充分地利用。例如,在体检数据中,检查项的异常程度往往与特定疾病之间存在一定的关联性。此外,患病人群在某一检查项取值范围内的聚集程度通常反映了在该数值范围内的体检项与特定疾病之间的相关性。为了利用体检数据自身的特点设计有效的关联性挖掘算法,本文提出了基于多目标进化优化的Top-k频繁模式挖掘算法,以此挖掘异常项与疾病之间的关联性。同时,本文提出了基于多目标进化优化的关联规则挖掘算法,以挖掘患病人群在体检项数值范围内的聚集程度与疾病之间的相关性。 本文的主要研究工作如下: (1)为了挖掘异常项与疾病之间的关联性,本文提出了基于多目标进化优化的体检数据Top-k频繁模式挖掘算法(MOEA-FIMED)。在体检数据中,检查项目的异常程度通常与诊断结果之间有着较强的关联性,由于缺少对这种关联性的考虑,导致挖掘出的??个频繁模式与诊断结果之间关联性较弱,并且结构上较为相似,难以提供多样化的频繁模式。本文针对该问题提出了异常度指标,基于此将体检数据Top-k频繁模式挖掘建模为一个多目标优化问题。本文设计了一种高效的多目标进化优化算法求解该问题,并采用了基于偏好的种群初始化策略和面向模式和项的双层更新策略提高算法性能。实验结果表明,本文所提算法获得的频繁模式不仅具有较好的多样性,而且通过医学文献中的论述验证了异常项与诊断结果之间的关联性。 (2)为了挖掘患病人群在体检项数值范围内的聚集程度与疾病之间的相关性,本文提出了基于多目标进化优化的体检数据关联规则挖掘算法(MOEA-DCC)。在体检数据中,患病人群在某一体检项取值范围内的聚集程度可以反应出这一检查项与疾病之间的相关性,利用这一相关性挖掘出的关联规则有助于研究者发现危险因素,辅助医生对其实施有效的健康干预。为此,本文利用这一相关性提出了密度指标,将体检数据关联规则挖掘问题建模为一个多目标优化问题,并设计了一种多目标进化优化算法对其进行求解。为了提高算法的性能,本文设计了一种基于选择的种群初始化策略以提高初始种群的质量。同时,设计了一种基于排序的交叉变异策略用于进一步强化算法的搜索能力。实验结果验证了本文所提算法和策略的有效性,且挖掘出的体检项与疾病之间的关联性有助于确定与该疾病相关的潜在高风险人群。