计算机研究与发展2021,Vol.58Issue(8) :1642-1654.DOI:10.7544/issn1000-1239.2021.20210287

基于病毒传播网络的基因序列表示学习

Gene Sequence Representation Learning Based on Virus Transmission Network

马扬 刘泽一 梁星星 程光权 阳方杰 成清 刘忠
计算机研究与发展2021,Vol.58Issue(8) :1642-1654.DOI:10.7544/issn1000-1239.2021.20210287

基于病毒传播网络的基因序列表示学习

Gene Sequence Representation Learning Based on Virus Transmission Network

马扬 1刘泽一 1梁星星 1程光权 1阳方杰 1成清 1刘忠1
扫码查看

作者信息

  • 1. 国防科技大学系统工程学院 长沙410073
  • 折叠

摘要

基因序列数据中往往存在大量的非编码和缺失序列,现有的基因序列表示大多通过人工方法对高维的基因序列进行特征提取,不仅非常耗时且成功的预测很大程度依赖于生物学知识的正确利用.基于病毒传播网络构建了一种基于图上下文信息的基因序列表示方法,对目标节点病毒序列进行编码后,使用注意力机制对其邻居节点的序列信息进行聚合,从而得到目标节点病毒序列的新的低维表示.进而依据病毒传播网络中相邻节点的基因序列相似性高于不相邻节点的特征,对基因序列表示模型进行优化,训练后得到的新的表示不仅可以有效表达基因序列的特征,同时极大地降低了序列的维度,提高了计算效率.分别在仿真病毒传播网络、新型冠状病毒和艾滋病毒传播网络数据上训练基因序列表示模型,并在相应的网络上进行未采样感染者发现任务.实验结果充分验证了模型的有效性,与其他方法的比较证明了模型的高效性,模型可以有效地在病毒传播网络上发现未采样感染者,这在流行病调查领域也具有一定的实际意义.

关键词

复杂网络/基因表示/机器学习/图神经网络/病毒传播

引用本文复制引用

基金项目

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量1
参考文献量4
段落导航相关论文