首页|基于序列信息的lncRNA与蛋白质相互作用预测算法研究

基于序列信息的lncRNA与蛋白质相互作用预测算法研究

孙典正

基于序列信息的lncRNA与蛋白质相互作用预测算法研究

孙典正1
扫码查看

作者信息

  • 1. 安徽大学
  • 折叠

摘要

lncRNA在生理过程中发挥着重要的调控作用,而与蛋白质相互作用是lncRNA发挥作用的一种重要方式,因此准确预测lncRNA与蛋白质的相互作用对于研究人员理解lncRNA的作用机制具有重要的意义。现有的算法存在对lncRNA和蛋白质序列进行嵌入式编码时特征空间狭窄,以及对样本特征的提取和融合不够充分的问题。更重要的是,在lncRNA与蛋白质相互作用预测中经常存在数据集的正负样本数量不平衡的情况,而现有的算法往往通过丢弃部分负样本的方法来避免面对这种情况,这可能导致重要特征的丢失以及模型泛化能力不强。针对以上问题,本文主要展开了以下两部分工作。 (1)针对lncRNA与蛋白质序列在嵌入式编码时特征空间狭窄以及样本特征提取和融合不充分的问题,提出了一种基于嵌入式编码和特征融合的lncRNA与蛋白质相互作用预测算法。首先,为了丰富lncRNA和蛋白质的序列在嵌入式编码时的特征空间,使用滑动窗口和邻居加权的嵌入式编码方法。其次,为了更好地对样本的序列信息进行特征提取和特征融合,使用集成学习方法集成了多头自注意力模型和编码器模型,多头自注意力模型按照权重关系突出重要的序列特征,编码器模型通过将k-mer频率特征映射到不同特征空间进行特征提取。最后,将提取的特征输入预测模块进行分类。对比实验、消融实验以及可视化结果都说明了该方法在lncRNA和蛋白质相互作用预测中的有效性。 (2)针对正负样本数量不平衡的问题,提出了一种基于分段k-mer编码和多空间聚类的lncRNA与蛋白质相互作用预测算法。首先,采用分段k-mer编码获取样本序列的全局与局部特征,以多种特征来表示一个样本的序列信息。其次,为了有效处理不平衡的数据,采用多空间聚类的方法联合多个特征空间共同约束分类,通过使用多个编码器将一个样本的不同特征映射到多个特征空间中得到输出,并在多个空间中对输出特征聚类。最后,预测模块计算样本在每个空间中的输出特征与聚类中心的距离,并将多个空间中的距离累加求和作为最终的预测距离,并与聚类半径比较进行分类。多个数据集上的对比实验和消融实验的结果显示,该方法在面对不平衡的正负样本时获得了更准确的预测效果,同时也说明了该方法在发掘潜在的lncRNA与蛋白质相互作用中的优势。

关键词

lncRNA/蛋白质/相互作用/深度学习/特征提取/特征融合

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

孙战里;何钟鹍

学位年度

2024

学位授予单位

安徽大学

语种

中文

中图分类号

Q81
段落导航相关论文