大豆科学2021,Vol.40Issue(1) :122-129.DOI:10.11861/j.issn.1000-9841.2021.01.0122

基于多种机器学习方法填补大豆基因组缺失的比较研究

Comparative Research for Imputation of Soybean Genome Missing Values Based on Various Machine Learning Methods

于合龙 刘雨帆 张继成 唐友
大豆科学2021,Vol.40Issue(1) :122-129.DOI:10.11861/j.issn.1000-9841.2021.01.0122

基于多种机器学习方法填补大豆基因组缺失的比较研究

Comparative Research for Imputation of Soybean Genome Missing Values Based on Various Machine Learning Methods

于合龙 1刘雨帆 2张继成 3唐友4
扫码查看

作者信息

  • 1. 吉林农业大学信息技术学院,吉林长春130118;吉林农业大学智慧农业研究院,吉林长春130118
  • 2. 吉林农业大学信息技术学院,吉林长春130118
  • 3. 东北农业大学电气与信息学院,黑龙江哈尔滨150030
  • 4. 吉林农业科技学院电气与信息工程学院,吉林吉林132101
  • 折叠

摘要

为探索大豆基因组测序不同程度缺失数据的有效填补措施,提升数据分析综合能力,本研究以大豆株高与叶面积两组性状的基因组基因型数据为研究对象,进行5%、10%和20%不同缺失比例的人为数据缺失处理,分别运用K近邻算法、SoftImpute算法和随机森林算法3种机器学习方法对缺失数据进行填补,分析填补数据的准确性和性对原始数据和填补后的数据进行全基因组关联分析,分别对比填补后的数据和原始数据的分析效果.从准确2看,随机森林算法填补的准确率最高;从运行时间上来看,SoftImpute算法的运行速度最快;运行内存方面,SoftIm算法的运行内存最小,而当数据量达到10 000x1 000时,K近邻填补算法的运行内存最小.在不考虑运行时间和运行内存的因素,且对填补的准确率要求较高的情况下,随机森林算法的填补效果要优于K近邻填补算法和SoftIm算法,若对运行时间要求较高且数据量较大时,则应选择SoftImpute算法,同种情况下若对运行内存要求较高时,可优先考虑K近邻填补算法.结果说明不同机器学习方法在不同缺失程度的填补需求下的适用性,可应用于大豆基[数据缺失处理.

关键词

大豆基因组缺失/K近邻算法/SoftImpute算法/随机森林算法/全基因组关联分析

引用本文复制引用

基金项目

国家自然科学基金(U19A2061)

吉林省科技发展计划(20190301024NY)

吉林省科技发展计划(20200301047RQ)

吉林省发展和改革委员会项目(2020C005)

出版年

2021
大豆科学
黑龙江省农业科学院

大豆科学

CSTPCDCSCD北大核心
影响因子:0.641
ISSN:1000-9841
被引量2
参考文献量6
段落导航相关论文