基于分子结构与预训练特征表示学习的致病同义突变预测方法研究

丰阿想¹

扫码查看

作者信息

1. 安徽大学
折叠

摘要

在编码蛋白质基因的外显子中，一个碱基替换了另一个碱基，而不改变产生的氨基酸，这种现象称为同义突变。由于同义突变不会改变蛋白质的序列，它们通常被视为中性或近中性的。然而，同义突变可以通过影响转录、剪接、mRNA运输和翻译等过程来改变表型，从而赋予同义突变潜在的致病性。鉴于这些致病同义突变与人类疾病紧密相关，从同义突变数据中识别出致病同义突变数据非常有意义。传统的生物学实验方法在识别致病同义突变方面既耗时又耗力，而且实验的速度跟不上数据产生的速度。相比之下，借助特征表示学习和深度学习技术可以有效地解决这一挑战。尽管致病同义突变预测研究已经开展了一些工作，但仍面临若干问题。例如，特征表示具有局限性，包括手工设计的特征需要大量的人力和时间，且基于序列编码的生物学特征信息量有限;DNA序列具有复杂性，使得传统特征表示方法难以有效解析DNA的语言特征;现有数据集不够完善、规模不足，数据预处理流程也不够严格等。为了解决这些问题，本文展开了以下研究工作: （1）基于分子结构特征学习的致病同义突变预测方法研究。为解决特征表示不充分的问题，本研究从碱基的分子层面出发，提出一种基于分子结构特征学习的致病同义突变预测方法 msDSM（Molecular Structure Feature Learning based Deleterious Synonymous Mutation Prediction）。首先对数据进行收集，并将序列数据表示为简化分子输入线系统字符串，再根据图卷积网络原理构建DNA分子图特征（MGF）。MGF由归一化邻接矩阵与归一化特征矩阵进行矩阵相乘得到，其中描述原子间位置信息的邻接矩阵标示原子间化学键是否相连，特征矩阵由原子的类型、度、化合价、芳香性、环的大小，以及氢的个数等六种属性构成。为增强特征的表达能力，采用序列特征中的独热编码进行特征扩充。随后将MGF与独热编码分别放在卷积神经网络（CNN）进行特征提取。将上述提取特征融合后送入多层感知机（MLP）进行分类。在CNN、双向门控循环单元网络（BiGRU）和双向长短时记忆网络（BiLSTM）上进行特征提取测试。根据训练集十折交叉验证的结果，选择使用CNN对MGF与独热编码分别进行特征提取。与现有方向比，该方法在独立测试集上性能有一定提升，表明了其在突变特异性特征学习上的优势。（2）基于预训练特征表示学习的致病同义突变预测方法研究。为解决数据集规模不足、数据预处理流程不够严谨和传统方法特征表示不充分的问题，本研究提出一种基于预训练特征表示学习的致病同义突变预测方法ptDSM（Pre-trained Feature Learning based Deleterious Synonymous Mutation Prediction）。该方法提出了一套严格的数据预处理流程并构建新数据集，第一层使用预训练DNABERT-2对输入的DNA序列进行特征表示，并使用文本卷积网络（TextCNN）深入提取特征。第二层使用K-mer频率特征来进一步补充特征信息，并使用CNN对其进行特征提取。第三层引入超图来捕捉序列间关系特征，并通过超图注意网络（HyperGAT）从超图结构中学习这些关系特征。将预训练DNABERT-2层、K-mer频率层和HyperGAT层学习到的特征融合起来，并送入MLP来预测突变是否具有致病性。对Embedding、dna2vec、DNABERT、DNABERT-2和DNABERT-S这些表示学习方法进行比较，预训练DNABERT-2在训练集十折交叉验证上取得了较优的结果，因此选用预训练DNABERT-2作为第一层的特征表示方法。结果表明，该模型与其它预测致病同义突变方法相比性能有一定提升。

关键词

致病同义突变预测/数据集预处理/分子结构/预训练特征表示学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

夏俊峰

学位年度

2024

学位授予单位

安徽大学

语种

中文

中图分类号

段落导航