第一作者简介:张智杰,男,河南新密人,学士,初级任职资格,研究方向为法医物证学。E-mail:tomatozzj@qq.com。
目的 模拟DNA数据库匹配,对出现的单亲二联体随机匹配概率进行计算,分析减少DNA数据库匹配中单亲二联体随机匹配出现的方法。方法 在计算机上运用R软件包“DNAprofiles”和“DNAtools”模拟DNA数据库的建库与匹配,计算不同DNA数据库中单亲二联体出现的随机匹配概率。结果 随着模拟建库STR基因座数的不断增加,DNA数据库单亲二联体随机匹配概率不断下降。结论 在DNA数据库实际操作中,单亲二联体需要作进一步检测以减少随机匹配带来的影响;进行DNA数据库和亲子关系判定所用的基因座应不少于23个。
Objective To explore the random matching probability of single parent-child duo among simulative DNA database in order to reduce the occurrence of random matching into DNA database.Methods Based on the known allele frequencies, the selected STR-loci database was simulated by the R software packages: “DNAprofiles” and “DNAtools”. The random matching probability was calculated for the two profiles to share with at most one-allele difference at each locus from (false) single parent-child pair.Results With the increasing of STR loci in the simulative DNA database, the decrease was found of random matching probability from the (false) single parent-child duo.Conclusion In actual practice, more STR loci should be tested so as to reduce the false inclusion of single parent-child duo. Suggestively, 23 and more loci are better for both DNA database construction and high-accuracy paternity analysis.
自1995年英国建立国家DNA数据库以来, 许多国家也相继建成了本国的DNA数据库。在中国, 现在公安机关办理日常刑事案件应用DNA检验技术已非常普遍。同时, 全国统一联网的DNA数据库也已建好。而随着各地联网入库的实验室不断增加, DNA数据库容量激增, 使用DNA数据库检索会遭遇一些问题[1]。其中, 一个重要问题就是出现单亲二联体随机匹配。2013年骆继怀等[2]、2014年高林林等[3]及2015年刘亚举等[4], 均报道了使用DNA数据库搜索时出现的单亲二联体随机匹配, 导致后续侦查工作量增加, 进而影响工作效率的问题。
目前, 我国尚未建成全人口的DNA数据库。为了研究DNA数据库检索中单亲二联体随机匹配概率及影响频率的因素, 根据2010年第六次全国人口普查结果, 我国汉族总人口数已达到12亿余人[5], 本文运用计算机R软件模拟随机产生达到全国汉族人口数量的DNA数据库, 并用已知分型样本与模拟DNA数据库进行单亲二联体匹配, 计算模拟DNA数据库单亲二联体随机匹配的概率, 为今后我国DNA数据库的发展和应用提供参考和帮助。
STR数据库是目前国内最常用、未来很长时间也仍会使用的法医DNA数据库。根据中国汉族人群STR基因座多态性数据[6], 分别选取13个STR基因座(CSF1PO、D13S317、D16S539、D18S51、D21S11、D3S1358、D5S818、D7S820、D8S1179、FGA、TH01、TPOX、vWA, 二联体累积非父排除率为:0.999 014 817)、19个STR基因座(在13个基因座的基础上增加D19S433、D6S1043、Penta D、Penta E、D12S391、D2S1338, 二联体累积非父排除率为:0.999 993 01)和23个STR基因座(在19个基因座的基础上增加D2S441、D10S1248、D22S1045、D1S1656, 二联体累积非父排除率为:0.999 999 128), 用以上基因座的等位基因频率分别模拟出库容量为12亿的三个随机汉族人口DNA数据库。数据库模拟的方法是用R软件包“ DNAprofiles” [7]与“ DNAtools” [8], 依据基因座的等位基因频率模拟产生三组不同基因座组合的随机个体DNA分型, 生成DNA数据库。同时将20例检测了23个STR基因座的案件实例样本的STR分型在三个模拟的DNA数据库中进行匹配, 得出20例实际样本在三个模拟DNA数据库中的单亲二联体随机匹配数(匹配容差上限分别为0和1), 并计算出每个案例样本的单亲平均随机匹配概率。同时, 将样本导入全国公安机关DNA数据库中进行单亲比对, 以验证模拟DNA数据库单亲二联体随机匹配的有效性。
R软件模拟结果如表1所示。在模拟的汉族人口DNA数据库中:当容差上限为0时, 13个基因座的数据库中平均每个样本的单亲二联体随机匹配概率为1.17× 10-3, 19个基因座的随机匹配概率为8.15× 10-6, 23个基因座的随机匹配概率为6.31× 10-8; 当容差上限为1时, 13个基因座的数据库中平均每个样本的单亲二联体随机匹配概率为1.24× 10-2, 19个基因座的随机匹配概率为1.33× 10-4, 23个基因座的随机匹配概率为1.49× 10-6。各DNA数据库单亲二联体随机匹配概率与其相对应的二联体累积非父排除率之间的相对误差均小于0.001。
从上述模拟和匹配结果可知, 随着模拟DNA数据库所用的STR基因座数增加, 样本的单亲二联体随机匹配概率减少, 但并不能完全避免随机匹配的发生。同时需要注意的是, 上述模拟的DNA数据库是完全随机个体数据库, 在日常公安工作中数据库的样本来源地可能较为集中, 这些样本之间可能在几代之内具有共同的祖先, 它们之间的基因型符合单亲二联体的可能性要高于完全随机的个体, 这时单亲二联体随机匹配发生的概率与模拟实验的概率相比将更高一些(如表2所示)。但更多匹配单亲二联体的出现, 将会分散公安机关的侦查力量, 增加后续工作量, 影响工作效率。另外, 本文只是随机取了20个实际案例样本比对。如果实际案件需要比对更多的样本, 或对数据库的数据进行两两比对, 则单亲随机匹配出现得会更多。由于单亲二联体随机匹配随着DNA数据库所用STR基因座数目的增加而减少, 因此, 将更多的STR基因座引入DNA数据库势在必行。
2008年巴华杰等[9]提出采用16个STR基因座建库。到了2012年, 巴华杰等[10]又提出采用18个STR基因座进行DNA数据库建库。从2017年1月1日起, 美国的CODIS(Combined DNA Index System)数据库已将建库STR基因座数目扩展至20个(CSF1PO、FGA、THO1、TPOX、VWA、D3S1358、D5S818、D7S820、D8S1179、D13S317、D16S539、D18S51、D21S11、D1S1656、D2S441、D2S1338、D10S1248、D12S391、D19S433、D22S1045)[11]。考虑到中国的人口基数和人员流动性受限等因素(出现相同等位基因的概率大于完全随机个体), 中国的DNA数据库建库STR基因座数应多于美国CODIS数据库所要求数量。因此, 在实际建立DNA数据库时, 建库STR的基因座数应不少于23个。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|