摘要
随着微阵列技术的创新,基因表达谱数据在肿瘤亚型预测中显示出巨大前景。准确地预测基于基因表达数据的肿瘤类别,有助于为患者选择适当的治疗计划。然而,小样本量仍然是设计合理分类器的瓶颈。传统的监督分类器只能利用有标签的数据,大量没有充分后续信息的基因表达谱数据被忽略。半监督分类器通过引入无标签的基因表达谱数据的分布信息已经被证明可以显著提高分类模型的分类性能和泛化能力。 本文主要针对基于基因表达谱数据的半监督分类方法进行深入分析,并提出了改进的半监督分类算法,以提高分类性能和数据泛化能力。主要的工作概况如下: 针对直推式支持向量机(TSVM)需要通过样本空间中有标签样本分布评估无标签样本分布,在有标签样本数较少和无标签样本与有标签样本分布不同的情况下,很容易导致估计误差较大的问题。本文提出了一种基于渐进过滤的直推式向量机(PL-TSVM),通过对无标签样本的渐进过滤式标注,不仅可以避免因错误评估样本空间中数据分布而引发的学习器性能下降,而且可以在一定程度上过滤标注不一定准确的半标签样本,从而在一定程度上保证新加入工作集中有标签样本的标签正确性,进而降低错误累加,提高学习器性能。有效地解决了半监督学习中无标签样本与有标签样本分布不平衡的问题。在四个公共可用的基因表达谱数据集上进行了仿真实验,当无标签样本与有标签样本分布不平衡时,PL-TSVM算法性能显著优于其对比算法TSVM和S4VM。 考虑到不同样本错分具有不同的错分代价,将代价敏感策略引入PL-TSVM算法,通过评估样本数据与类中心的核距离,赋予样本数据不同的错分代价,得到一种基于代价敏感和渐进过滤的直推式向量机(CS-PL-TSVM)。在基因表达数据集上的仿真实验验证了该方法的优越性。