首页|基于分子结构与预训练特征表示学习的致病同义突变预测方法研究

基于分子结构与预训练特征表示学习的致病同义突变预测方法研究

丰阿想

基于分子结构与预训练特征表示学习的致病同义突变预测方法研究

丰阿想1
扫码查看

作者信息

  • 1. 安徽大学
  • 折叠

摘要

在编码蛋白质基因的外显子中,一个碱基替换了另一个碱基,而不改变产生的氨基酸,这种现象称为同义突变。由于同义突变不会改变蛋白质的序列,它们通常被视为中性或近中性的。然而,同义突变可以通过影响转录、剪接、mRNA运输和翻译等过程来改变表型,从而赋予同义突变潜在的致病性。鉴于这些致病同义突变与人类疾病紧密相关,从同义突变数据中识别出致病同义突变数据非常有意义。 传统的生物学实验方法在识别致病同义突变方面既耗时又耗力,而且实验的速度跟不上数据产生的速度。相比之下,借助特征表示学习和深度学习技术可以有效地解决这一挑战。尽管致病同义突变预测研究已经开展了一些工作,但仍面临若干问题。例如,特征表示具有局限性,包括手工设计的特征需要大量的人力和时间,且基于序列编码的生物学特征信息量有限;DNA序列具有复杂性,使得传统特征表示方法难以有效解析DNA的语言特征;现有数据集不够完善、规模不足,数据预处理流程也不够严格等。为了解决这些问题,本文展开了以下研究工作: (1)基于分子结构特征学习的致病同义突变预测方法研究。为解决特征表示不充分的问题,本研究从碱基的分子层面出发,提出一种基于分子结构特征学习的致病同义突变预测方法 msDSM(Molecular Structure Feature Learning based Deleterious Synonymous Mutation Prediction)。首先对数据进行收集,并将序列数据表示为简化分子输入线系统字符串,再根据图卷积网络原理构建DNA分子图特征(MGF)。MGF由归一化邻接矩阵与归一化特征矩阵进行矩阵相乘得到,其中描述原子间位置信息的邻接矩阵标示原子间化学键是否相连,特征矩阵由原子的类型、度、化合价、芳香性、环的大小,以及氢的个数等六种属性构成。为增强特征的表达能力,采用序列特征中的独热编码进行特征扩充。随后将MGF与独热编码分别放在卷积神经网络(CNN)进行特征提取。将上述提取特征融合后送入多层感知机(MLP)进行分类。在CNN、双向门控循环单元网络(BiGRU)和双向长短时记忆网络(BiLSTM)上进行特征提取测试。根据训练集十折交叉验证的结果,选择使用CNN对MGF与独热编码分别进行特征提取。与现有方向比,该方法在独立测试集上性能有一定提升,表明了其在突变特异性特征学习上的优势。 (2)基于预训练特征表示学习的致病同义突变预测方法研究。为解决数据集规模不足、数据预处理流程不够严谨和传统方法特征表示不充分的问题,本研究提出一种基于预训练特征表示学习的致病同义突变预测方法ptDSM(Pre-trained Feature Learning based Deleterious Synonymous Mutation Prediction)。该方法提出了一套严格的数据预处理流程并构建新数据集,第一层使用预训练DNABERT-2对输入的DNA序列进行特征表示,并使用文本卷积网络(TextCNN)深入提取特征。第二层使用K-mer频率特征来进一步补充特征信息,并使用CNN对其进行特征提取。第三层引入超图来捕捉序列间关系特征,并通过超图注意网络(HyperGAT)从超图结构中学习这些关系特征。将预训练DNABERT-2层、K-mer频率层和HyperGAT层学习到的特征融合起来,并送入MLP来预测突变是否具有致病性。对Embedding、dna2vec、DNABERT、DNABERT-2和DNABERT-S这些表示学习方法进行比较,预训练DNABERT-2在训练集十折交叉验证上取得了较优的结果,因此选用预训练DNABERT-2作为第一层的特征表示方法。结果表明,该模型与其它预测致病同义突变方法相比性能有一定提升。

关键词

致病同义突变预测/数据集预处理/分子结构/预训练特征表示学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

夏俊峰

学位年度

2024

学位授予单位

安徽大学

语种

中文

中图分类号

TP
段落导航相关论文