首页期刊导航|基因组学与应用生物学
期刊信息/Journal information
基因组学与应用生物学
基因组学与应用生物学

李宁

双月刊

1674-568X

gab@gabcn.org

0771-3232621,3239102

530004

广西南宁市大学东路100号广西大学西校园榕江路《基因组学与应用生物学》编辑部111室

基因组学与应用生物学/Journal Genomics and Applied BiologyCSCD北大核心CSTPCD
查看更多>>本刊为基因组时代的理论与应用生物学提供服务的科学杂志,将面向基因组学、分子遗传学、生化与分子生物学等基础学科领域,着重刊登农林科学、医药科学、动物科学、环境、生态领域的研究成果。
正式出版
收录年代

    化合物药物-靶标蛋白互作关联预测算法进展分析

    唐春艳钟诚李娜钟铭...
    181-194页
    查看更多>>摘要:药物的使用极大地提高了人类的生存质量.药物的有效性是药物发现研究中的关键环节.药物的有效性通过识别药物与其作用的靶标蛋白来判断.然而,通过高通量筛选的实验方法分析确定化合物药物-靶标蛋白互作关联是一个十分昂贵、耗时且富有挑战性的任务.基于计算方法的化合物药物-靶标蛋白互作关联预测研究具有效率高、成本低的特点,越来越受到人们的重视.相比实验验证方法,化合物药物-靶标蛋白互作关联的计算方法可为药物发现研究后续的生物药学实验提供更为准确的潜在化合物药物-靶标蛋白候选对,达到减少生物实验的时间和成本的目的.本文回顾了近20年来基于计算方法的化合物药物-靶标蛋白互作关联预测算法所涉及的生物医学特征数据、预测方法和技术,并分析研究过程中所面临的生物医学特征数据高维稀疏,以及多源生物医学数据融合程度不高等问题,为进一步研究提供有价值的参考.

    药物发现化合物药物-靶标蛋白互作关联生物医学特征数据高维稀疏数据融合

    单细胞转录组测序数据的细胞类型识别方法比较

    朱晓姝滕飞廖燕莹谢妙...
    195-206页
    查看更多>>摘要:单细胞转录组测序技术提供单个细胞分辨率的基因表达谱,有助于更准确地揭示细胞异质性.聚类是识别生物组织中细胞类型的主要方法,选择合适的聚类算法可以提升单细胞转录组测序数据分析的性能.本文阐述了 k-means、层次聚类(hierarchical clustering,HC)、Leiden、SC3、SCENA、LAK、SIMLR 和 dropClust 等 8 种典型的单细胞聚类算法,在 12 个带有真实标签的单细胞转录组测序数据集上进行聚类比较分析.采用轮廓系数、Calinski-Harabasz指数、调整兰德指数、调整互信息、FMI指数、V-measure、Jaccard系数和变异系数等8个评价指标,对8种聚类算法的性能进行分析评价.根据实验结果,发现HC、SC3、k-means、SCENA的聚类泛用性与鲁棒性最佳,在大规模数据集上SIMLR算法表现最好;在小规模数据集上Leiden算法表现最好,但是存在依赖邻居节点参数和稳定性低的问题;dropClust算法在泛用性和鲁棒性上最差.此外,8种聚类方法的性能都与数据质量有关,当数据的变异系数较低时,聚类算法的评分指标普遍增高,反之亦然.

    单细胞转录组测序聚类细胞类型识别数据质量性能评价

    CBSG-PPI:基于图神经网络的蛋白质-蛋白质相互作用的预测算法

    甘宇雨余彦佳刘勇
    207-216页
    查看更多>>摘要:为提高蛋白质-蛋白质相互作用(protein-protein interaction,PPI)预测的准确性,并深入探索细胞信号传导和疾病发生的生物学机制,本文提出一种简称为CBSG-PPI的预测算法.该算法首先利用3层前馈网络来处理蛋白质的k-mer特征,采用CT方法和Bert方法提取蛋白质的氨基酸序列以及使用卷积神经网络提取蛋白质的序列特征,再结合图神经网络和多层感知机来准确预测PPI.与现有的预测技术相比,CBSG-PPI在准确率、F1分数、召回率和精确率等多个关键性能指标上展现了明显的优势,在公开数据集上分别达到了 0.855、0.853、0.840和0.866的高分.此外,本算法采用了 一种改进的参数调整方法,显著提高了计算效率,其预测速度比传统算法快了约140倍.这一显著的性能提升,不仅证实了 CBSG-PPI在预测PPI方面的研究价值,也为未来蛋白质间相互作用网络的构建和分析提供了有用的计算工具.

    蛋白质-蛋白质相互作用图神经网络多层感知机计算生物学

    基于子块矩阵马尔可夫聚类识别动态蛋白质相互作用网络功能模块

    张锦雄潘扬健孟雪莉唐伊红...
    217-227页
    查看更多>>摘要:细胞生物过程具有时序动态性,蛋白质功能模块是驱动细胞生物过程的功能单位.为了蛋白质功能模块识别,本文将细胞生物过程建模为动态时序表达相关蛋白质相互作用网络(DTEPIN);构建子块矩阵以表示动态时序表达相关蛋白质相互作用网络;利用子块矩阵特殊性,分析时空复杂度和并行性;优化设计马尔可夫聚类算法,以识别动态时序表达相关蛋白质相互作用网络中的蛋白质功能模块.为了支持基于子块矩阵马尔可夫聚类过程,本文运用图形处理器并行计算矩阵乘积.实验结果表明,与已有同类算法相比,所设计算法识别的蛋白质功能模块,统计匹配质量更高且精确匹配数量更多.

    蛋白质功能模块蛋白质-蛋白质相互作用动态时序表达马尔可夫聚类GPU并行计算

    高等生物中基因组序列8-mer频谱分布模式及其在物种进化研究中的应用

    杨振华王丽郑燕
    228-240页
    查看更多>>摘要:基因组序列的8-mer频谱具有物种特异性,解读8-mer频谱内在规律,对于揭示基因组序列的结构组成和进化模式具有重要的意义.本研究统计了 66个物种的8-mer频谱分布,发现高等哺乳动物8-mer频谱分布以三峰为主,鸟类和爬行类动物频谱分布以双峰为主,而鱼类和非脊椎类动物频谱分布以单峰为主.为了进一步研究基因组8-mer频谱的构成,使用16种XY二核苷分类方法.研究结果表明,只有在CG分类下具有以下两个特征:(1)CG0、CG1和CG2子集的8-mer频谱呈现单峰分布,并且3个峰彼此分离;(2)相对随机中心位置,CG1和CG2子集频谱分布远离随机中心,CG0子集频谱分布在随机中心周围.为了进一步验证CG0、CG1和CG2子集频谱分布与物种进化的关系,使用3个CG子集频谱的分离性指标构建了 66个物种的系统发育树,该系统发育树将物种分为4个簇,分别为高等哺乳类、鸟类与爬行类、鱼类和非脊椎类.研究结果表明3个CG子集频谱分布与物种基因组进化信息密切相关.

    基因组序列8-mer频谱分离性系统发育树

    融合数据扩散算法与深度生成模型的单细胞特征提取研究

    苏秀秀龙法宁
    241-249页
    查看更多>>摘要:深度模型在单细胞转录组测序(single-cell transcriptome sequencing,scRNA-seq)中以单细胞分辨率提取基因的特征表达,但是scRNA-seq采集过程中存在"dropout"(数据缺失)问题,造成基因表达矩阵存在大量技术零值的噪声数据,部分基因间的关联性被噪声掩盖或影响.盲目地挖掘噪声数据往往会对深度学习模型的训练和推理过程产生消极影响,进而导致批次效应、虚假差异基因表达结果和性能下降等问题,掩藏真正的表达关系.针对以上问题,本文提出了一种融合单细胞转录组数据扩散算法的深度生成模型,通过数据扩散算法在相似的细胞之间分享信息,消除细胞计数矩阵中噪声的同时填补"dropout"现象,提高深度模型的聚类精度并有效去除批次效应.

    单细胞测序转录组数据扩散算法深度生成模型特征提取

    基于随机森林模型的甜橙环状RNA的鉴定及其功能初步分析

    刘畅闫亚娜黄桂艳李瑞民...
    250-260页
    查看更多>>摘要:为挖掘甜橙(Citrus sinensis)基因组中的环状RNA(circular RNA,circRNA),明确circRNA在甜橙与病原菌互作过程中的生物学功能,本研究基于机器学习随机森林模型,利用python环境开发了针对甜橙circRNA鉴定的流程,比较不同建模算法的优劣,鉴定甜橙基因组中的circRNA,构建甜橙circRNA-miRNA及circRNA-miRNA-mRNA互作网络,并对靶向mRNA进行基因功能富集.通过比较随机森林、决策树以及前馈神经网络3种建模算法,结果表明,基于随机森林算法构建的模型性能最好.共鉴定了 2 523个甜橙circRNA,它们不均匀地分布在9条染色体上,其中5号染色体分布最多,有416个;存在606个甜橙circRNA-miRNA互作对及21 043个miRNA-mRNA互作对;靶向mRNA基因功能广泛参与代谢、转运及发育等过程,涉及苯丙烷类物质生物合成、亚油酸代谢和植物-病原菌互作等代谢途径;甜橙circRNA影响miR172和miR482等抗病相关小RNA的转录调控.本研究为甜橙circRNA参与抗病生物学过程的研究提供参考.

    甜橙环状RNA随机森林模型靶基因转录调控

    水产经济鱼类基因组大数据平台的构建与应用

    徐淑坦舒道德曾魁陈明...
    261-273页
    查看更多>>摘要:水产经济鱼类是人类重要的蛋白质来源,对其基因组的研究在分子育种、分析水生生物进化等方面起到重要作用.目前,国内缺少分析水产经济鱼类基因测序数据的综合性数据平台.本文搜集并整理了 20余种水产经济鱼类的基因组测序数据,并开发了水产经济鱼类基因组大数据平台.该平台包括数据存储、数据下载、数据分析,以及数据可视化展示等模块.通过该平台,用户可以快速检索鱼类基因的功能、表达水平、基因保守性以及共线性等.本研究开发的鱼类大数据平台将促进水产领域对鱼类基因组的分析.该大数据平台可通过IP 47.96.156.188访问.

    大数据平台基因组功能基因表达水平基因保守性共线性

    用于肺水肿量化的掩码图像-语言蒸馏模型

    卢得民钟诚杨锋
    274-283页
    查看更多>>摘要:肺水肿量化是治疗急性充血性心力衰竭(congestive heart failure,CHF)的关键.用于视觉和语言预训练的多模态掩码自编码器已被证实可有效融合胸片和肺水肿放射学报告的多模态信息以提升肺水肿量化精度.但现有的方法是随机地对图像和文本进行掩码操作,这一不稳定的操作容易导致模型忽略图像病灶和文本关键词,并阻碍多模态信息的融合与对齐,最终影响量化精度.针对上述问题,本研究设计了一种掩码图像-语言蒸馏模型,首次将自蒸馏引入到医学图像-语言预训练任务中,使得模型获得更为稳定可靠的医学图像和语言表示;并对跨模态注意力融合机制进行优化,使得模型更好地融合与对齐多模态信息.相比于 101 层残差神经网络(residual network 101,ResNet101)、视觉 Transformer(vision transformer,ViT)-B/16、联合胸片和肺水肿放射学报告建模(joint modeling of chest radiographs and radiology reports for pulmonary edema assessment,JMC3R)和用于视觉和语言预训练的多模态掩码自编码器(multi-modal masked autoencoders for medical vision and language pre-training,M3AE),本研究所提出的方法在肺水肿量化数据集(pulmonary edema assessment dataset,PEAD)上获得了更高的肺水肿量化精度.

    肺水肿自蒸馏掩码建模多模态注意力机制

    基于拓扑分析方法鉴定与胃癌相关的生物标志物

    马华赵成文马俊
    284-297页
    查看更多>>摘要:胃癌(gastric cancer,GC)是最常见的恶性肿瘤之一.由于GC发病隐匿的特性,其早期检测困难.因此,研究与GC早期诊断和预后相关的生物标志物至关重要.从GEO数据库下载了 3组基因表达数据集GSE79973、GSE19826和GSE13911,通过 Limma 包筛选差异表达基因(differentially expressed genes,DEGs),并使用 DEGs、STRING V11 数据库和 Cy-toscape构建了 DEGs的蛋白质-蛋白质相互作用(protein-protein interaction,PPI)网络,通过4种拓扑分析方法取交集筛选hub基因,并通过单变量Cox分析、多变量Cox分析、Lasso回归分析、生存分析、通路分析以及文献法验证hub基因.从3个数据集中分别筛选了 1599个、333个和662个DEGs.通过拓扑分析方法筛选了 4个hub基因,即CDK1、AURKA、PTTG1和UBE2C.GO和KEGG富集分析结果表明4个hub基因参与了细胞外基质-受体相互作用、糖尿病并发症中的AGE-RAGE信号通路、小细胞肺癌和蛋白质消化吸收等通路.生存分析结果表明4个hub基因与GC患者的总体生存显著相关,其中CDK1、PTTG1和UBE2C高表达组的生存率显著低于低表达组的,说明这3个hub基因高表达与GC患者的不良预后相关.通过单变量Cox分析、多变量Cox分析和Lasso回归分析验证了 CDK1、UBE2C和PTTG1可能是GC患者的潜在预后标志物.为了进一步支撑结果的可靠性,采用文献验证法从生物实验的角度验证了 4个hub基因与GC的发生发展密切相关.因此,CDK1、PTTG1和UBE2C最有可能作为GC患者的潜在预后标志物.

    胃癌hub基因拓扑分析生物标志物