摘要
高质量的参考基因组能极大的推动物种功能基因组学和育种的研究进程。随着测序技术的飞速发展,三代单分子测序技术PacBio和Nanopore开始大规模在基因组denovo中应用,使得单个个体的基因组denovo组装成为有效可行的方法。但对于如何结合不同测序数据和组装软件以获得更高连续性,如何纠错从而获得更高准确率的基因组序列,以及测序深度对组装效果的影响,还有待研究。优质籼稻品种华占与天丰是在水稻育种中被广泛使用的亲本,其后代之一优质杂交水稻天优华占适应性广,产量高,被广泛种植。本研究通过对华占和天丰进行PacBio和Nanopore测序,对基因组进行组装,比较不同测序平台、不同组装策略、不同纠错方法以及不同测序深度的组装效果,并利用Hi-C构建染色体,从而获得高质量的完整水稻基因组。本研究的主要分析结果如下: (1)水稻基因组组装策略的比较分析。对华占和天丰进行PacBio和Nanopore测序并分别组装,比较两个测序平台、同一测序平台内不同组装软件、不同纠错策略以及不同测序深度对组装效果的影响。对比Nanopore平台,PacBio组装结果基因组总大小更接近预估大小,组装与纠错步骤更简便,基因完整性更高,与二代数据一致性更高,且纠错后的碱基质量更高。对于PacBio平台而言,Canu组装的效果最好,华占和天丰的ContigN50分别达到6.56Mb和10.66Mb。就Nanopore平台而言,Canu和SMARTdenovo组合的组装效果最好,华占和天丰的ContigN50分别达到8.98Mb和15.16Mb。对纠错部分而言,三代与二代数据相结合的纠错效果最好,二代数据纠错效果显著,对基因组准确性提高贡献大。测序深度对组装的影响,PacBio或Nanopore平台的30×数据足以组装出可用水稻基因组。然而,如果需要得到高质量参考基因组,或对特定区域如重复序列组装质量有较高要求,则推荐加大测序深度以提升组装结果的连续性和完整性。 (2)高质量水稻基因组的构建。将综合比较分析后获得最好的结果,即来自于Canu组装PacBio平台数据产生的Contig通过Hi-C构建染色体级别基因组,并利用遗传图谱进行验证。通过组装及校正,华占和天丰最终获得基因组总长度分别为395.89Mb和399.09Mb。经评估,华占和天丰的LAI指数分别为22.96和21.24,BUSCO评估为98.50%和98.70%,完整性为99.20%和99.70%,二代数据比对率为98.88%和99.72%,与高质量参考基因组R498共线性高度一致。综上所述,本研究中获得的华占和天丰的基因组为高质量基因组。 (3)水稻基因组注释。使用denovo预测和同源相结合的策略对重复序列进行注释,华占和天丰基因组内重复序列约占50%。使用denovo预测、同源预测和RNA-seq预测相结合的方法对基因组进行基因结构预测。经过整合与过滤,华占基因组中预测到42,625个基因,天丰中预测到41,815个基因。BUSCO评估结果分别为97.90%和98.40%。 (4)水稻比较基因组学分析。以日本晴(MSUV7.0)为参考基因组,将本研究组装的华占和天丰基因组,以及目前被广泛使用的高质量水稻基因组MH63、ZS97、9311、R498进行比较基因组学分析。经分析获得SNP数量范围为2,576,769~2,935,507个,InDel为464,856~531,031个,大缺失为91~112个,插入为108~123个。为了检验鉴定的变异集的准确性,随机选取SNP、InDel与结构变异进行验证,所检测变异均真实存在,说明本研究获得变异集准确性高,且通过denovo组装基因组进行变异分析是可行且有效的方法。 综上所述,本研究中经综合比较分析后选择的水稻基因组组装策略为其他水稻基因组的组装提供参考;高质量基因组间比较鉴定的变异集,为水稻目标基因的克隆和候选基因预测提供直接的参考序列和基因注释以及变异信息,助力水稻基因组学以及功能基因的挖掘和应用研究。