首页|基于胶囊网络的深度学习模型预测ncRNA-蛋白质相互作用

基于胶囊网络的深度学习模型预测ncRNA-蛋白质相互作用

李晓毅

基于胶囊网络的深度学习模型预测ncRNA-蛋白质相互作用

李晓毅1
扫码查看

作者信息

  • 1. 北京工业大学
  • 折叠

摘要

非编码RNAs(non-coding RNAs,ncRNAs)在许多生命活动中发挥着至关重要的调控作用,包括染色质重塑、基因调控、细胞分化、表观遗传调控与复杂人类疾病等。虽然大多数ncRNAs的分子机制和功能尚不清楚,但研究表明,ncRNAs常通过与相应的RNA结合蛋白相互作用来发挥其调控功能,因此研究ncRNA-蛋白质相互作用(ncRNA-protein interactions,ncRPIs)对于理解 ncRNAs的功能机制及复杂疾病的诊断具有重要意义。随着高通量测序技术的迅速发展以及ncRNAs和蛋白质的序列数据的快速增加,大量的ncRPIs有待确定。因此,迫切需要开发出能够准确高效地预测ncRPIs的计算方法。 本论文提出了一种基于胶囊网络的集成深度学习模型预测ncRPIs,简称RPI-EDLCN。模型的输入特征包括一级序列特征、二级结构序列特征、基序信息与理化性质特征,通过联合k-mer编码方法对序列特征进行编码,并叠加上基序信息和理化性质特征后输入到卷积神经网络(convolutional neural network,CNN)、深度神经网络(deep neural network,DNN)、堆叠自编码器(stacked auto-encoder,SAE)与胶囊网络(Capsule Network,Capsulenet)集成深度学习模型。CNN、DNN与SAE提取ncRNAs/蛋白质深层次的抽象特征,再通过一层全连接层将学习到的高级特征转换为特征列向量,两个相似的CNN/DNN/SAE深度学习模型分别对ncRNAs与蛋白质进行特征学习,然后将得到的六个特征列向量输入到胶囊网络中进行更深层次的特征学习,最后通过Softmax激活函数对ncRNA-蛋白质是否具有相互作用进行二分类。 五倍交叉验证结果表明,RPI-EDLCN在RPI1807、RPI2241和NPInter v2.0数据集上具有优秀的性能,准确率分别为93.8%、88.2%和91.9%。与前人的方法相比,基于三个基准数据集的表现凸显了 RPI-EDLCN良好的分类性能。不同输入特征组合结果显示,一级序列特征是最重要的,二级结构序列特征、基序信息与理化性质特征都包含有用的信息,当输入所有特征时,其相互补充,使模型预测ncRPIs的性能更好。为了检验模型的泛化性能,独立测试了 NPInter v2.0数据集上6个物种的样本,对于线虫、黑腹果蝇、大肠杆菌、智人、小鼠和酿酒酵母六个物种的预测正确率分别为93.9%、88.5%、90.6%、90.2%、95.8%和89.2%。此外,根据小鼠的独立测试结果构建了 ncRPIs网络,网络图直观显示了小鼠的热点ncRNAs/蛋白质被RPI-EDLCN准确捕获,此结果有助于理解ncRNAs和蛋白质的分子机制和生物学功能,为疾病的诊断和治疗提供了指导性意见。总体结果表明RPI-EDLCN对于预测ncRPIs具有较高的准确性和良好的鲁棒性,可以作为有效的预测ncRPIs的工具。 RPI-EDLCN工作的源代码和所使用的数据集存储在https://github.com/JianjunTan-Beijing/RPI-EDLCN。

关键词

非编码RNAs/蛋白质/相互作用/预测模型/深度学习/胶囊网络

引用本文复制引用

授予学位

硕士

学科专业

生物医学工程

导师

谭建军

学位年度

2023

学位授予单位

北京工业大学

语种

中文

中图分类号

TP
段落导航相关论文