基于自编码器和Transformer的生存时长预测问题特征构造算法研究

王昭¹

扫码查看

作者信息

1. 吉林大学
折叠

摘要

当癌症患者和临床医生共同对现阶段做出治疗决定时，会重点考虑生存时长这个因素。大多数现有研究调查了癌症患者在特定时间段（如1年或5年）后的生存或复发风险，但无法更具体地了解癌症患者的生存时长。随着现代高通量技术的飞速发展，生物组学数据也越来越多地被公开发布并应用于多种疾病，比如癌症。目前已有大量研究使用DNA甲基化数据集来寻找DNA甲基化的生物标记与肿瘤之间的临床关联。但是这些数据集由于其特征数远远多于样本数的“大p小n”问题，不利于模型的训练以及后续研究工作的开展。为了预测患者的具体生存时长以及解决特征维度远远多于样本个数的问题，本文提出了一种基于自编码器和Transformer的SLOGAN模型，将特征选择和特征构造结合起来，并对最终选择出来的特征子集进行具体的生存时长预测。本工作中进行特征选择的主要目的是减少冗余特征和数据噪声，降低计算开销的同时提高预测的精度。但是，由于特征选择无法产生新的特征，所以无法提升特征本身的质量和信息丰度。因此，本工作引入了基于自编码器和Transformer的特征构造方法，将原始特征映射到新的空间，从而提高模型在特征子集上的预测性能。同时，在特征构造的部分结合了对抗学习的思想，在生成器部分使用普通自编码器，在判别器部分增加Transformer机制，并提出一种损失函数sparseloss来辅助模型的训练，增加构造特征的质量。并在模型构建的过程中，使用对抗学习的思想，对生成器的输入和输出进行“对抗”，使得生成器更好的学习原始特征的信息，以致构造出来的特征在预测中表现出良好的性能。本文使用了来自TCGA数据库的10个数据集，并基于以上数据集设计了循环构造次数选择、隐藏层节点数目选择、特征构造必要性验证、特征选择方法对比实验、特征构造网络模型对比实验、特征构造网络模型消融实验这六方面的实验。通过对比不同循环构造次数下的预测性能可以发现，并不是循环构造的次数越多，构造特征的质量就越好。为选择合适的中间隐藏层节点个数，本文对比了在不同中间隐藏层结点下的SLOGAN算法的构造结果。通过对比仅经过特征选择与通过特征选择和特征构造之后的特征子集在模型上的回归预测性能，可以验证特征构造的必要性。而后本文通过比较SLOGAN特征选择方法与现有特征选择算法、SLOGAN特征构造模型与现有神经网络模型，证明了通过SLOGAN算法产生的特征更优。最后，为了验证SLOGAN算法特征构造部分神经网络各个组成模块的有效性，本文进行了消融实验，比较去除网络中不同部分所构造出的特征在回归预测模型上的性能。实验结果表明，SLOGAN算法构造的新特征在回归预测的问题中达到了更好的预测性能，且证明了特征构造的必要性，以及通过消融实验发现特征构造模型中的每个部分都是不可或缺的。

关键词

DNA甲基化/特征选择/特征构造/自编码器/生成对抗网络/神经网络

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

周丰丰

学位年度

2023

学位授予单位

吉林大学

语种

中文

中图分类号

段落导航