几种混合DNA贡献者人数推断方法之比较

胡渝涵¹

扫码查看

作者信息

1. 四川大学
折叠

摘要

目的利用PCR和毛细管电泳（Capillaryelectrophoresis,CE）技术对犯罪现场残留的DNA进行短串联重复序列（Shorttandemrepeats,STR））检测是目前针对法医DNA分析的主要技术平台，许多国家也相继建立了本国的STR数据库进行图谱比对，推进犯罪调查。现场物证所生成的DNA图谱中，有多个贡献者DNA共同构成的混合图谱日趋增多。STR在对混合斑的分析过程中存在诸多问题，例如贡献者间STR等位基因共享、stutter等随机扩增产物的存在等，会造成混合DNA图谱解析困难。但随着对似然率（Likelihoodratio,LR）这一证据权重指标的广泛认可、概率分型软件的迅速推广，以及大规模DNA-STR数据库的大量运用，基于STR-CE技术进行DNA证据的个人识别和混合斑解释仍然是法医界未来很长一段时间的重点和热点。概率模型软件使得对混合斑解释流程可简化为三个部分：1.识别混合斑；2.分析贡献者人数（Numberofcontributors，NOC）；3.利用概率模型进行贡献个体的基因型拆分并进行统计学权重计算。其中，贡献者个体数量的准确评估会直接影响到LR输出的准确性。因此，本课题以STR-CE分析平台和图谱解析为基础，运用美国高加索人、非裔美国人、中国四川和中国上海四个数据库，构建2-6贡献者模拟混合DNA。以此为基础，比较了最大等位基因计数法（Maximumallelecounting，MAC）、最大似然率法（Maximumlikelihoodrateestimating，MLE）和机器学习算法（Machinelearning）三种贡献者数量估计方法；并基于所得NOC的结果，使用不同原理和信息度的概率分型软件——Euroformix、LRmixStudio对所得混合斑进行LR的计算，分析贡献者人数的准确与否对DNA混合斑证据解释的影响。方法 1.数据库检索以及模拟混合斑的构建：①通过文献检索确定包含具体个体STR分型的数据库；②搭建python脚本，抽取数据库所包含个体STR图谱并混合，实现2—6贡献者DNA混合图谱的生成； 2.计算各位点PDM值（ProbabilityofDetectingDNAMixture），并评估其在混合DNA分析中，作为遗传标记个人识别系统效能评估参数的可行性和评估能力。以下以单个数据库为例，均利用python脚本实现：①利用现有公式，使用穷举法计算2—5人混合时，各STR位点PDM值；②计算2—5人混合斑中，各位点分析混合斑贡献者人数的准确率，准确率=[有2N个等位基因的位点数目+有（2N-1）个等位基因的位点数目]/生成模拟混合斑的总数；③将各位点PDM值、杂合度、分析NOC准确率三种数据三维作图拟合曲线方程，判断相关性，评估PDM值作为系统效能指标的适用性； 3.MAC与MLE两种方式判断NOC的准确率及其影响因素，以下均利用python脚本实现：：①对模拟混合斑2-6人混合斑通过MAC和MLE两种方式进行贡献者人数的判断，比较两种方法准确率；②依此减少使用位点数至15个，探究STR位点数目对分析准确率的影响。 4.实际混合DNA分型：①DNA样本的提取：采集志愿者血样，通过有机酚-氯仿法对细胞核DNA进行提取；②DNA模板定量与稀释：利用Investigator?Quantiplex试剂盒对所提取DNA进行定量，并按所需浓度使用无核酸酶水进行稀释，配置体系以及实验步骤严格按照说明书执行；③DNA混合斑STR图谱生成：按照不同比例对模板DNA进行2—3人混合，经过PCR循环扩增，毛细管电泳平台检测，GeneMapperID-Xv1.5软件分型，检测阈值设置为50rfu，stutterratio设置为15%，将所有可能为真实等位基因的峰标注； 5.机器学习算法对实际混合DNA分型数据的NOC估计：NOC根据所获得的实际混合DNA分型数据的容量，选择支持向量机算法（SupportVectorMachine,SVM）进行NOC模型搭建，利用python的Sci-kit模块，将所有数据分为训练集与测试集，对所有DNA分型图谱进行NOC的判定，并同时利用MAC、MLE的方法对贡献者人数进行推断； 6.LR值的计算：根据MAC、MLE、SVM模型的NOC判读结果，筛选出判读错误的混合斑，使用半连续模型概率分型软件LRmixStudio和连续模型概率分型软件Euroformix对所有混合斑图谱进行LR值计算，比较两者软件的准确率，以及在贡献者人数判读有误情况下，对统计学权重LR值的影响。结果 1.PDM作为评估混合斑中各位点效能的指标本课题选用四个不同人群的STR分型数据分别进行PDM值计算，并且与杂合度指标进行NOC判断准确率的关联性分析。结果表明杂合度与分型准确率的Pearson’r相关系数随着NOC的增加逐渐减小，最低可至0.45。PDM值与分型准确率的相关系数在四个数据库中均不随贡献人数的增多而下降，均表现为极强相关（pearson’r＞0.9）。 2.MAC与MLE判断NOC的准确率及其影响因素 MAC法在判别三人及三人以下的准确率仍在99%以上，随着人数增多准确率迅速下降，至五人混合时，判别准确率均低于50%，六人混合判别准确率均低于15%，最低准确率达2.09%；而通过MLE法，二到六人混合斑，判别准确率均在80%以上，且随着人数的增多并未呈下降趋势。参与混合斑构成的STR位点数目影响NOC推断准确率。使用的位点数目越少，准确率依次下降，通过MAC方法，四人混合斑的NOC推断准确率下降趋势最明显，在14—16个位点时，准确率下降至20%以下；通过MLE方法，三到六人混合斑NOC推断准确率下降趋势相似，但较为平缓，在最少利用10个位点的六人混合斑中，准确率均大于40%。 3.三种方法判断实际混合斑NOC的准确率共计386个2—3人DNA混合图谱用于MAC、MLE、机器学习法推断贡献者人数。推断贡献者为二的混合斑时，MAC、MLE准确率分别为为93.4%、93.7%；推断贡献者人数为三的混合斑时，MAC、MLE的准确率均为78.6%。机器学习随机选择232个混合图谱用于训练模型，154个图谱用于测试，贡献者人数推断准确率为100%。与MAC、MLE相比，机器学习的方法推断贡献者人数更为准确。 4.NOC的准确判别对统计学权重LR值的影响针对不同模板量、不同混合比的二到三人混合斑，EuroformixLR值计算结果均大于LRmixStudio结果值，且均＞1。当混合图谱所有真实等位基因成功标注且贡献者人数判别正确时，LRmixStudio获得一致的LR值，Euroformix在一定范围内上下浮动，且均大于前者计算得值。但贡献者人数出现错误时，LRmixStudio计算结果出现三类：一、无论NOC推断正确与否，LR值均＜1，不支持原告假设；二、无论NOC推断正确与否，LR值均＞1，支持原告假设；三、在NOC推断错误时，LR＜1；推断正确时，LR＞1；Euroformix计算结果仅可分为两类：一、无论NOC推断正确与否，LR值均＞1，支持原告假设；二、在NOC推断错误时，LR＜1；推断正确时，LR＞1。在LRmixStudio中LR值均＞1的混合斑，在Euroformix中仍＞1,，且LR值相较前者更高；在LRmixStudio中LR值均＜1的混合斑，在Euroformix中成为第二类结果值。结论第一，PDM值作为评估STR位点混合斑检测能力的动态指标，与NOC分型准确率有极强相关性，其在混合斑解释流程中对NOC准确判别方面具有极大的应用潜力。第二，在本研究中，我们证实了通过MLE方法能大幅度提高复杂混合斑的NOC推断准确率，计算过程通过python脚本自动化运行，相较于机器学习方法效率更高，更适用于实际运用。且其随着位点数的减少，在不同贡献者人数情况下的分型准确率下降程度较为平缓，此方法对位点多态性程度的依赖较小。在利用多态性程度较低的SNP遗传标记时，构建大规模panel对贡献者人数的推断具有更好的应用前景。第三，机器学习方法针对混合NOC的推断有极大的应用价值。使用该算法对2-3人实际混合DNA图谱进行解析，可以准确推断混合DNA中的贡献者构成。第四，虽然Euroformix相较于LRmixStudio利用了更多的信息，如等位基因峰高进行gamma建模，drop-out概率的确定是根据输入混合斑等位基因及其峰高自动计算得值，无需手动输入，效率相较LRmixStudio更高。但无论概率分型软件效能如何，在混合斑证据权重LR的计算时，NOC的准确判定对输出值有重要影响，在贡献者人数低估时，会造成LR＜1的结果，排除POI。

关键词

法医学/混合DNA/贡献者个数/机器学习/个人识别

引用本文复制引用

授予学位

硕士

学科专业

法医学

导师

张霁

学位年度

2021

学位授予单位

四川大学

语种

中文

中图分类号

段落导航