DNA数据库单亲随机匹配概率研究
张智杰1, 吕德坚2
1.广州铁路公安处,广州 510010
2.中山大学中山医学院法医学系,广州 510089

第一作者简介:张智杰,男,河南新密人,学士,初级任职资格,研究方向为法医物证学。E-mail:tomatozzj@qq.com

摘要

目的 模拟DNA数据库匹配,对出现的单亲二联体随机匹配概率进行计算,分析减少DNA数据库匹配中单亲二联体随机匹配出现的方法。方法 在计算机上运用R软件包“DNAprofiles”和“DNAtools”模拟DNA数据库的建库与匹配,计算不同DNA数据库中单亲二联体出现的随机匹配概率。结果 随着模拟建库STR基因座数的不断增加,DNA数据库单亲二联体随机匹配概率不断下降。结论 在DNA数据库实际操作中,单亲二联体需要作进一步检测以减少随机匹配带来的影响;进行DNA数据库和亲子关系判定所用的基因座应不少于23个。

关键词: 法医物证学; 单亲二联体随机匹配概率; R软件; DNA数据库
中图分类号:DF795.2 文献标志码:B 文章编号:1008-3650(2019)06-0545-03
Random Matching Probability of Single Parent-child Duo among DNA Database
ZHANG Zhijie1, LÜ Dejian2
1.Guangzhou Railway Police Bureau, Guangzhou 510010, China
2.Department of Forensic Medicine, Zhongshan Medical College of Sun Yat-sen University, Guangzhou 510089, China
Abstract

Objective To explore the random matching probability of single parent-child duo among simulative DNA database in order to reduce the occurrence of random matching into DNA database.Methods Based on the known allele frequencies, the selected STR-loci database was simulated by the R software packages: “DNAprofiles” and “DNAtools”. The random matching probability was calculated for the two profiles to share with at most one-allele difference at each locus from (false) single parent-child pair.Results With the increasing of STR loci in the simulative DNA database, the decrease was found of random matching probability from the (false) single parent-child duo.Conclusion In actual practice, more STR loci should be tested so as to reduce the false inclusion of single parent-child duo. Suggestively, 23 and more loci are better for both DNA database construction and high-accuracy paternity analysis.

Key words: forensic biology; single parent’s random matching probability; R software; DNA database

自1995年英国建立国家DNA数据库以来, 许多国家也相继建成了本国的DNA数据库。在中国, 现在公安机关办理日常刑事案件应用DNA检验技术已非常普遍。同时, 全国统一联网的DNA数据库也已建好。而随着各地联网入库的实验室不断增加, DNA数据库容量激增, 使用DNA数据库检索会遭遇一些问题[1]。其中, 一个重要问题就是出现单亲二联体随机匹配。2013年骆继怀等[2]、2014年高林林等[3]及2015年刘亚举等[4], 均报道了使用DNA数据库搜索时出现的单亲二联体随机匹配, 导致后续侦查工作量增加, 进而影响工作效率的问题。

目前, 我国尚未建成全人口的DNA数据库。为了研究DNA数据库检索中单亲二联体随机匹配概率及影响频率的因素, 根据2010年第六次全国人口普查结果, 我国汉族总人口数已达到12亿余人[5], 本文运用计算机R软件模拟随机产生达到全国汉族人口数量的DNA数据库, 并用已知分型样本与模拟DNA数据库进行单亲二联体匹配, 计算模拟DNA数据库单亲二联体随机匹配的概率, 为今后我国DNA数据库的发展和应用提供参考和帮助。

1 方法

STR数据库是目前国内最常用、未来很长时间也仍会使用的法医DNA数据库。根据中国汉族人群STR基因座多态性数据[6], 分别选取13个STR基因座(CSF1PO、D13S317、D16S539、D18S51、D21S11、D3S1358、D5S818、D7S820、D8S1179、FGA、TH01、TPOX、vWA, 二联体累积非父排除率为:0.999 014 817)、19个STR基因座(在13个基因座的基础上增加D19S433、D6S1043、Penta D、Penta E、D12S391、D2S1338, 二联体累积非父排除率为:0.999 993 01)和23个STR基因座(在19个基因座的基础上增加D2S441、D10S1248、D22S1045、D1S1656, 二联体累积非父排除率为:0.999 999 128), 用以上基因座的等位基因频率分别模拟出库容量为12亿的三个随机汉族人口DNA数据库。数据库模拟的方法是用R软件包“ DNAprofiles” [7]与“ DNAtools” [8], 依据基因座的等位基因频率模拟产生三组不同基因座组合的随机个体DNA分型, 生成DNA数据库。同时将20例检测了23个STR基因座的案件实例样本的STR分型在三个模拟的DNA数据库中进行匹配, 得出20例实际样本在三个模拟DNA数据库中的单亲二联体随机匹配数(匹配容差上限分别为0和1), 并计算出每个案例样本的单亲平均随机匹配概率。同时, 将样本导入全国公安机关DNA数据库中进行单亲比对, 以验证模拟DNA数据库单亲二联体随机匹配的有效性。

2 结果

R软件模拟结果如表1所示。在模拟的汉族人口DNA数据库中:当容差上限为0时, 13个基因座的数据库中平均每个样本的单亲二联体随机匹配概率为1.17× 10-3, 19个基因座的随机匹配概率为8.15× 10-6, 23个基因座的随机匹配概率为6.31× 10-8; 当容差上限为1时, 13个基因座的数据库中平均每个样本的单亲二联体随机匹配概率为1.24× 10-2, 19个基因座的随机匹配概率为1.33× 10-4, 23个基因座的随机匹配概率为1.49× 10-6。各DNA数据库单亲二联体随机匹配概率与其相对应的二联体累积非父排除率之间的相对误差均小于0.001。

表1 模拟DNA数据库单亲二联体随机匹配 Table 1 Random matching of single parent-child duo into simulative DNA database
3 讨论

从上述模拟和匹配结果可知, 随着模拟DNA数据库所用的STR基因座数增加, 样本的单亲二联体随机匹配概率减少, 但并不能完全避免随机匹配的发生。同时需要注意的是, 上述模拟的DNA数据库是完全随机个体数据库, 在日常公安工作中数据库的样本来源地可能较为集中, 这些样本之间可能在几代之内具有共同的祖先, 它们之间的基因型符合单亲二联体的可能性要高于完全随机的个体, 这时单亲二联体随机匹配发生的概率与模拟实验的概率相比将更高一些(如表2所示)。但更多匹配单亲二联体的出现, 将会分散公安机关的侦查力量, 增加后续工作量, 影响工作效率。另外, 本文只是随机取了20个实际案例样本比对。如果实际案件需要比对更多的样本, 或对数据库的数据进行两两比对, 则单亲随机匹配出现得会更多。由于单亲二联体随机匹配随着DNA数据库所用STR基因座数目的增加而减少, 因此, 将更多的STR基因座引入DNA数据库势在必行。

表2 现实DNA数据库单亲二联体随机匹配 Table 2 Random matching of single parent-child duo into actual DNA database

2008年巴华杰等[9]提出采用16个STR基因座建库。到了2012年, 巴华杰等[10]又提出采用18个STR基因座进行DNA数据库建库。从2017年1月1日起, 美国的CODIS(Combined DNA Index System)数据库已将建库STR基因座数目扩展至20个(CSF1PO、FGA、THO1、TPOX、VWA、D3S1358、D5S818、D7S820、D8S1179、D13S317、D16S539、D18S51、D21S11、D1S1656、D2S441、D2S1338、D10S1248、D12S391、D19S433、D22S1045)[11]。考虑到中国的人口基数和人员流动性受限等因素(出现相同等位基因的概率大于完全随机个体), 中国的DNA数据库建库STR基因座数应多于美国CODIS数据库所要求数量。因此, 在实际建立DNA数据库时, 建库STR的基因座数应不少于23个。

参考文献
[1] 葛建业, 严江伟, BURCE B, . 关于法庭科学DNA数据库若干问题的探究[J]. 中国法医学杂志, 2011, 26(3): 252-255.
(GE Jianye, YAN Jiangwei, BURCE B, et al. Study on several questions of forensic DNA database[J]. Chinese Journal of Forensic Medicine, 2011, 26(3): 252-255. ) [本文引用:1]
[2] 骆继怀, 孙红兵, 陶晓岚, . 数据库比中多个疑父的亲权鉴定1例[J]. 法医学杂志, 2013, 29(2): 159-160.
(LUO Jihuai, SUN Hongbin, TAO Xiaolan, et al. One case of paternity identification matching several alleged fathers in database[J]. Journal of Forensic Medicine, 2013, 29(2): 159-160. ) [本文引用:1]
[3] 高林林, 常莹, 张明亚, . DNA数据库中未知名尸与失踪人员亲属“错中”一例[J]. 刑事技术, 2014(3): 60-61.
(GAO Linlin, CHANG Ying, ZHANG Mingya, et al. One case of mismatch between the relative of missing person and unidentified body in DNA database[J]. Forensic Science and Technology, 2014(3): 60-61. ) [本文引用:1]
[4] 刘亚举, 张博. DNA数据库亲缘关系比对2例分析[J]. 河南科技大学学报(医学版), 2015, 33(1): 70-72.
(LIU Yaju, ZHANG Bo. Analysis of two cases of kinship testing into DNA database[J]. Journal of Henan University of Science & Technology (Medical Science), 2015, 33(1): 70-72. ) [本文引用:1]
[5] 国家统计局. 2010年第六次全国人口普查主要数据公报(第1号)[R/OL]. (2011-04-28)[2018-05-12]. http: //www. stats. gov. cn/tjsj/tjgb/rkpcgb/qgrkpcgb/201104/t20110428_30327. html.
(National Bureau Of Statistic. Bulletin for the main data of sixth national population census in 2010 (NO. 1) [R/OL]. (2011-04-28)[2018-05-12]. http://www.stats.gov.cn/tjsj/tjgb/rkpcgb/qgrkpcgb/201104/t20110428_30327.html [本文引用:1]
[6] 吴微微, 刘冰, 郝宏蕾, . 中国28个省/区汉族人群41个STR基因座多态性数据分析[J]. 中国法医学杂志, 2016, 31(1): 27-32.
(WU Weiwei, LIU Bing, HAO Honglei, et al. The study and analysis of polymorphisms of 41 STR loci in Chinese Han population from 28 provinces/regions[J]. Chinese Journal of Forensic Medicine, 2016, 31(1): 27-32. ) [本文引用:1]
[7] KRUIJVER M. Efficient computations with the likelihood ratio distribution[J]. Forensic Science International: Genetics, 2015, 14: 116-124. [本文引用:1]
[8] TVEDEBRINK T, CURRAN J M, ERIKSEN P S, et al. Analysis of matches and partial-matches in a Danish STR data set[J]. Forensic Science International: Genetics, 2012, 6(3): 387-392. [本文引用:1]
[9] 巴华杰, 罗斌, 刘冰泉, . DNA数据库9个STR基因座比中认定亲权的可靠性分析[J]. 中国法医学杂志, 2008, 23(4): 258-260.
(BA Huajie, LUO Bin, LIU Bingquan, et al. The reliability of paternity on inclusion of 9 STR loci matched in DNA database[J]. Chinese Journal of Forensic Medicine, 2008, 23(4): 258-260. ) [本文引用:1]
[10] 巴华杰, 刘亚楠, 张璐, . DNA数据库“标准三联体”亲缘关系比中应用价值初探[J]. 中国刑警学院学报, 2012 (1): 57-59.
(BA Huajie, LIU Yanan, ZHANG Lu, et al. Preliminary study on the application value of “stand ard triplet” kinship matched in DNA database[J]. Journal of National Police University of China, 2012, (1): 57-59. ) [本文引用:1]
[11] FBI. Combined DNA Index System (CODIS)[EB/OL]. [2018-05-14]. https://www.fbi.gov/services/laboratory/biometric-analysis/codis. [本文引用:1]