首页|基于多尺度特征融合的深度学习预测ncRNAs-蛋白质相互作用

基于多尺度特征融合的深度学习预测ncRNAs-蛋白质相互作用

王京京

基于多尺度特征融合的深度学习预测ncRNAs-蛋白质相互作用

王京京1
扫码查看

作者信息

  • 1. 北京工业大学
  • 折叠

摘要

非编码RNAs(non-coding RNAs,ncRNAs)在许多生命活动中发挥着不可或缺的调控作用,例如翻译、剪切、转录后基因的调控、基因修饰、基因降解、染色质重塑与人类疾病等。在真核生物中,许多ncRNAs通过与蛋白质发生相互作用发挥其多种功能。因此,预测ncRNAs-蛋白质相互作用(ncRNAs-protein interactions,ncRPIs)对研究ncRNAs功能及疾病诊断具有重要意义,目前,实验的方法确定ncRPIs仍然是昂贵且费时费力的,因此,迫切需要计算的方法快速准确地预测ncRPIs。 提出了一种多尺度特征融合的集成深度学习模型预测ncPRIs,简称EDLMFC。多尺度的特征不仅包括一级序列特征,还有二级结构序列与三级结构特征,通过联合k-mer编码方法编码序列特征,并叠加上三级结构特征后输入到卷积神经网络(convolutional neural network,CNN)与双向长短时记忆网络(bidirectional long short-term memory network,BLSTM)集成深度学习模型。CNN提取ncRNAs/蛋白质抽象的深层次特征,进一步输入到BLSTM中捕获其长程依赖关系,两个相似的CNN集成BLSTM神经网络分别对ncRNAs与蛋白质进行学习,将学习到的特征通过一层全连接层转换为特征列向量,然后,将两个特征列向量连接到一起,并通过一个三层的全连接层和Softmax激活函数判断ncRNAs-蛋白质是否具有相互作用。 为了评价EDLMFC优越性,选择了RPITER、IPMiner和CFRP进行比较,在RPI1807、NPInter v2.0和RPI488三个数据集上进行五倍交叉验证(five-fold cross-validation,5CV)。由于训练过程中样本的选择是随机的,在每个数据集上将5CV重复10次,最后取10次结果的平均作为最后的结果。EDLMFC在三个数据集上的准确率(accuracy,ACC)、真阳性率(true positive rate,TPR)、真阴性率(true negative rate,TNR)、精度(positive predictive value,PPV)、F1评分(F1-score,F1)、马修斯相关系数(Matthews correlation coefficient,MCC)和受试者工作特征(receiver operation characteristic,ROC)曲线下面积(area under the curve,AUC)分别是:0.861、0.745、0.967、0.961、0.829、0.742和0.899;0.938、0.969、0.845、0.949、0.959、0.833和0.967;0.897、0.917、0.877、0.882、0.899、0.795和0.959。总的来说,EDLMFC比RPITER、IPMiner和CFRP提高了0.1%-7.7%。通过不同的特征组合发现,一级序列特征是最重要的,二级结构与三级结构特征也包含有用的信息,当所有特征作为输入时,其互相补充,使模型预测ncRPIs的准确率更高。将NPInter v2.0数据集按物种来源分为智人、小鼠、酿酒酵母、线虫、黑腹果蝇和大肠杆菌6类进行独立验证,其正确率分别达到了85.3%、94.8%、91.2%、93.9%、89.1%和93.1%,整体正确率达到了89.7%。此外,根据小鼠的独立验证结果构建的ncRNAs-蛋白质相互作用网络,发现了小鼠ncRPIs过程中的热点ncRNAs/蛋白质,将有助于分析ncRNAs和蛋白质的生物学功能,理解关键生命活动的机理,并有利于各种医学与药学的研究。

关键词

非编码RNAs/蛋白质/相互作用/预测模型/特征融合/深度学习

引用本文复制引用

授予学位

硕士

学科专业

生物医学工程

导师

谭建军

学位年度

2021

学位授予单位

北京工业大学

语种

中文

中图分类号

Q5
段落导航相关论文