首页|基于高通量测序错误抑制的低丰度突变发现策略研究

基于高通量测序错误抑制的低丰度突变发现策略研究

陈慧敏

基于高通量测序错误抑制的低丰度突变发现策略研究

陈慧敏1
扫码查看

作者信息

  • 1. 重庆邮电大学
  • 折叠

摘要

高通量测序技术(Next-Generation Sequencing,NGS)的出现加速了生物学及生物医学等领域的发展。然而,由于NGS的错误率约为0.1%~1%,导致其无法准确检测在生物学以及医学等领域具有重要研究价值及意义的低丰度突变(突变频率小于1%)。双重测序技术(Duplex Sequencing,Duplex-Seq)是目前最有效的测序错误抑制技术。该技术能大幅提高了测序准确度,使错误率降低至10-8~10-6。然而,该技术采用质量分数(Q-score)进行过滤,且在生成单链一致性序列(Single Strand Consensus Sequence,SSCS)和双链一致性序列(Double Strand Consensus Sequence,DCS)时过滤了大部分重要读段,导致其数据利用率极低(0.5%~2.5%)。 本课题提出一种基于NGS错误抑制的低丰度突变发现策略(Enhanced Error Surpression,EES)。该策略通过贝叶斯定理计算每个碱基为一致性碱基的概率以生成SSCS,根据其概率重新计算质量分数,进一步比较互补的两条SSCS以生成DCS,保留互补配对的单条读段,以及能与SSCS互补的单条读段进行单链校正,以降低测序错误。为了验证EES是否能更有效地降低测序错误,以提高识别低丰度突变的准确率,本课题采用不同测序数据集(包括:不同测序深度的数据集、不同突变含量的细胞系数据集、基准数据集以及样本数据集)开展研究,并将结果与传统UMI技术以及Duplex-Seq技术的结果进行比较。结果显示,降低有效读段簇(Read Family)的读段数目(Family Size)阈值为2,且保留存在互补配对的单条读段,以及与SSCS互补的单条读段后,EES均能有效提高SSCS和DCS的生成效率,尤其对于中等测序深度的数据集LargeMid,SSCS以及DCS的生成效率分别提高了约3.5以及23倍。其次,EES在保留了更多数据的情况下,仍能有效的抑制背景错误。对于超深度测序数据集SmallDeep,其无错误位置碱基率从56.13%提高至99.94%,每碱基错误率由0.0161%降低至0.0003%。最后,采用EES对基准数据集进行研究,发现EES相较于其他两种方法能识别出更多的真实突变。同时,在不同细胞系稀释比例的数据集和样本数据集中,EES也能发现更多突变。总之,EES不仅能有效抑制测序错误率,而且能有效提高数据利用率和发现更多的真实突变。该方法的提出拟为低丰度突变的发现提供一种错误抑制效果更好、数据利用率更高的策略。

关键词

高通量测序/错误抑制/双重测序/低丰度突变发现策略/贝叶斯定理

引用本文复制引用

授予学位

硕士

学科专业

生物学

导师

浦丹

学位年度

2023

学位授予单位

重庆邮电大学

语种

中文

中图分类号

Q5
段落导航相关论文