全同胞关系排除方法分析
周密1, 韦帆1, 章俊2, 汪军3,*
1.芜湖市公安局,安徽 芜湖241000
2.中德美联生物技术有限公司,江苏 无锡214000
3.安徽工程大学计算机与信息学院,安徽 芜湖241000
* 通讯作者:汪军,男,安徽桐城人,硕士,副教授,研究方向为智能计算、图像处理与模式识别。E-mail:wangjun@ahpu.edu.cn

第一作者简介:周密,男,安徽芜湖人,硕士,主检法医师,研究方向为法医物证学。E-mail:523603361@qq.com

摘要

目的 建立全同胞关系排除方法——父母排除法,以穷举法计算多个已知同胞的全同胞排除率(PEFS-K),并以随机模拟法进行验证。方法 父母排除法原理:对3个或以上个体进行全同胞关系鉴定时,在单个STR基因座上,如果没有任何一组父母能与所有个体符合双亲遗传规律,则该基因座不符合遗传规律,可排除全同胞关系。为评估该方法的系统效能,本研究首先以穷举法在AGCU EX20试剂盒的19个STR基因座中计算2~3已知同胞的全同胞排除率(PEFS-K2~PEFS-K3)的精确值,以及五等位基因法的排除率(PEFive-K2~PEFive-K3)的精确值。其次以随机模拟法设计实验,统计PEFS-K2~PEFS-K3和PEFive-K2~PEFive-K3的模拟值。最后,以模拟值对比精确值的方式,对穷举法计算值进行实验验证。结果 本文穷举法计算获得了19个STR基因座的PEFS-K2~PEFS-K3的精确值,且计算结果符合模拟实验验证。AGCU EX20试剂盒的2~3已知同胞的全同胞累积排除率(CPEFS-K2和CPEFS-K3)分别为1-1.21128×10-3和1-8.63710×10-6结论 父母排除法结论明确,可推广于3个体以上全同胞鉴定。穷举法适用于多个已知同胞的全同胞排除率的精确值计算,具有法医物证学应用价值。

关键词: 法医物证学; 全同胞; 父母排除法; 穷举法; 随机模拟法
中图分类号:DF795.2 文献标志码:A 文章编号:1008-3650(2019)02-0100-05
Approach for Exclusion of Full-sibling Relationship
ZHOU Mi1, WEI Fan1, ZHANG Jun2, WANG Jun3,*
1. Wuhu Public Security Bureau, Wuhu 241000, Anhui, China
2. AGCU Scientech Incorporation, Wuxi 214000, Jiangsu, China
3. School of Computer & Information Science, Anhui Polytechnic University, Wuhu 241000, Anhui, China
Abstract

Objective To establish a new approach for exclusion of full-sibling relationship by the exclusion of parents using the exhaustion strategy to calculate the probability of exclusion for all full-sibling possibility concerning the participation of multiple known full-siblings (PEFS-K), and to make it empirically validated with stochastic simulation.Methods The principle for the parental exclusion is: all the individuals are not likely to be of full-siblings if there is no one STR locus from any possible parents to conform to Mendel genetic law with the all involved individuals when three or more individuals join into the test for the full-sibling relationship. The comprehensive effectiveness for the approach of parental exclusion is evaluated by the probability of exclusion for all full-sibling possibility concerning the participation of 2~3 known full-siblings (PEFS-K2~PEFS-K3), based on the exact calculation under exhaustion of genotypes among the AGCU EX20 kit’s 19 STR loci that are also identically computed by the previously-established 5-allele exclusion method (PEFive-K2~PEFive-K3). The simulation values of both PEFS-K2~PEFS-K3 and PEFive-K2~PEFive-K3 are collected and compared. Finally, the approach of exhaustion is empirically validated by contrasting the exact values against the simulated ones.Results PEFS-K2~PEFS-K3, obtained with the exact calculation under the exhaustion of genotypes in 19 STR loci of AGCU EX20 kit, are all in accordance with the simulation test, with the relevant CPEFS-K2 as 1-1.21128×10-3and CPEFS-K3 to be 1-8.63710×10-6.Conclusion The approach of parental exclusion is simple and clear, capable of being used into the full-sibling identification when three or more individuals participate in the test. The exhaustion strategy is a good alternative to calculate the exact values of PEFS-K, applicable for forensic genetics to rely on.

Key words: forensic genetics; full sibling; the approach of parental exclusion; exhaustion strategy; stochastic simulation

全同胞关系鉴定的倾向性结论主要依靠ITO法计算亲权指数(PI)和IBS法[1, 2, 3]。虽然2个体之间全同胞关系无法排除, 但是3个或以上个体的全同胞的排除性结论有五等位基因排除法[4]。五等位基因排除法的原理为:当2个以上全同胞参与鉴定时, 若已知全同胞和被鉴定人在某一个STR位点出现多于5个的等位基因(含5个), 则该位点不符合遗传规律, 倾向于排除被鉴定人。五等位基因排除法虽然简单易行, 但有部分情况未考虑到, 系统效能较低。例如某基因座上, 3个个体的基因型分别为9/9、10/10和11/11。3个个体的此处等位基因共有3个, 但却无论如何也不能找到某一对父母能与3个个体同时符合双亲遗传规律[5]。因此该例中的3个个体不可能是同一对父母所生, 可排除全同胞关系。本文首先建立新的全同胞排除方法对全同胞关系进行排除性检验, 提出多个已知同胞的全同胞排除率的概念, 在AGCU EX20试剂盒上以穷举法计算精确值, 并以模拟实验进行验证。

1 方法
1.1 基本概念和原理

多个已知同胞的全同胞排除率(PEFS-K)指单基因座上多个已知同胞与比对样本排除全同胞关系的概率。本文以父母排除法作为排除全同胞关系的判断标准, 其原理为:对3个或以上个体进行全同胞关系鉴定时, 在单个STR基因座上, 如果没有一组父母能与所有个体符合双亲遗传规律, 则该基因座不符合遗传规律, 可排除全同胞关系; 如果其中有某一组父母能与所有个体符合双亲遗传规律, 则该基因座符合遗传规律, 不能排除全同胞关系。

本文将2个已知同胞的排除率称为PEFS-K2, 3个已知同胞的排除率称为PEFS-K3……, 以此类推。PEFS-K2和PEFS-K3是本文的主要分析对象。因为任意2个个体样本一定能找到一组父母与两者符合双亲遗传规律, 必然不能排除全同胞关系, 所以1个已知同胞的排除率(PEFS-K1)=0。

父母排除法涵盖了五等位基因排除法。因为在单基因座上, 同一组父母最多有4个不同的等位基因, 如果所有的个体含有5个或以上等位基因, 那么就不可能找到同一组父母与所有个体均符合双亲遗传规律。父母排除法还将五等位基因排除法未考虑到的情况也包含在内。即使所有个体的等位基因总数小于等于4, 同样有很多种情况必须排除全同胞的可能性。以3个体为例, 表1列出全部6种排除全同胞关系的基因分型组合, 其中每种组合的等位基因总数均小于等于4。

表1 3个体排除全同胞关系的基因分型举例 Table 1 Possible STR types of 3 individuals who are unlikely to be of full-siblings
1.2 穷举法

因为多个个体基因型的排列组合极多, 判别模型非常复杂, 所以理论推导PEFS-K的数学公式非常困难。本文尝试以穷举法计算PEFS-K的精确值, 其原理为:

1)在单个基因座上, 将所有等位基因进行排列组合, 组成该基因座上所有可能的个体基因型, 称为全体基因型集合。其中每个个体均可根据等位基因频率计算对应的基因型频率。例如某基因座有A、B和C三个等位基因, 对应基因频率为a、b和c, 则该基因座的全体基因型集合为AA、BB、CC、AB、AC和BC共6种, 对应的基因型频率为a2、b2、c2、2ab、2ac和2bc。

2)在单基因座上独立产生3个全体基因型集合, 分别视为比对样本(等位基因A1/A2)、父(等位基因F1/F2)和母(等位基因M1/M2), 然后进行排列组合, 产生该基因座的父母的全部基因型组合。父母可产生4种基因型的子女, 即1号(等位基因F1/M1)、2号(等位基因F1/M2)、3号(等位基因F2/M1)、4号(等位基因F2/M2)。

3)对4种基因型的子女进行排列组合, 得16种2已知同胞基因型组合, 包括:1号-1号、1号-2号……4号-4号。每一种2已知同胞基因型组合的概率为1/16。以父母排除法对比对样本和所有2已知同胞基因型组合进行全同胞关系判断。父母排除法判断方法为:首先如果N个个体的等位基因总数≥ 5, 则直接排除全同胞关系。其次如果N个个体的等位基因总数≤ 4, 则将这些等位基因排列组合, 组成所有可能的基因型集合, 称为亲代基因型集合。独立产生2个亲代基因型集合, 分别视为父集合和母集合, 再次进行排列组合, 产生全部的父母基因型组合。将每一种父母基因型组合与比对样本和所有已知同胞进行双亲关系判断, 如果其中有某一组父母能与所有样本符合双亲关系, 就符合全同胞关系; 如果任何一组父母均不能与所有样本符合双亲遗传规律, 就排除全同胞关系。例如比对样本A与2已知同胞B+B, 等位基因总数=2, 亲代基因型集合为A、B和AB共3种。排列组合后, 父母基因型组合共9种, 其中有一种组合能够满足上述条件, 即AB+AB组合, 因此该例符合全同胞关系。基因型组合频率=A1频率× A2频率× F1频率× F2频率× M1频率× M2频率/16。将所有符合标准的基因型组合频率累加, 得到PEFS-K2的穷举法精确值。

4)对4种基因型的子女进行排列组合, 得64种3已知同胞基因型组合, 包括:1号-1号-1号、1号-1号-2号…4号-4号-4号。每一种3已知同胞基因型组合的概率为1/64。以父母排除法对比对样本和所有3已知同胞基因型组合进行全同胞关系判断。基因型组合频率=A1频率× A2频率× F1频率× F2频率× M1频率× M2频率/64。将所有符合标准的基因型组合频率累加, 得到PEFS-K3的穷举法精确值。

5)为了对比五等位基因排除法和父母排除法的排除概率, 本文也以穷举法计算五等位基因排除法的排除率(PEFive-K)。其计算原理与PEFS-K类似, 仅仅将基因型组合的判别方式更换为五等位基因排除法。

根据穷举法原理和中国汉族人群基因频率[6], 自行开发软件[7]计算AGCU EX20试剂盒的19个常染色体STR基因座的PEFS-K2~PEFS-K3的精确值(PEFS-K2-F~PEFS-K3-F), 以及PEFive-K2~PEFive-K3的精确值(PEFive-K2-F~PEFive-K3-F)。

1.3 模拟实验验证

1.3.1 模拟随机个体

按随机模拟法, 自主研发软件[7]产生AGCU EX20试剂盒的19个常染色体STR基因座的模拟随机个体。方法为:在单个基因座上, 随机产生2个等位基因, 组成模拟随机个体的基因型, 等位基因的产生概率参考中国汉族人群基因频率[6]。在多个基因座分别模拟, 可获得模拟随机个体完整STR分型。

1.3.2 模拟随机子女

在单个基因座上, 随机抽取父亲的1个等位基因和母亲的1个等位基因, 组成子女的2个等位基因, 抽取概率均为50%。在多个基因座分别模拟, 可获得1个随机子女的完整STR分型。

1.3.3 模拟随机同胞

在单基因座上, 首先产生2个模拟随机个体, 分别视为父和母。其次由这对父母独立产生N个模拟随机子女, 即可视为模拟随机同胞。在多个基因座分别模拟, 可获得N个模拟随机同胞的完整STR分型。

1.3.4 模拟实验设计

在单基因座上, 模拟n组, 每组包含1个模拟随机个体(视为比对样本)和N个模拟随机同胞。

1)根据父母排除法原理, 判断每组中的比对样本和N个模拟随机同胞是否符合全同胞关系。设排除全同胞关系的组的数量为C1, 则PEFS-K模拟值=C1/n

2)根据五等位基因排除法, 判断每组中的比对样本和N个模拟随机同胞是否符合全同胞关系。设排除全同胞关系的组的数量为C2, 则PEFive-K模拟值=C2/n

n=1000万, N=2~3, 对19个基因座分别统计PEFS-K2~PEFS-K3的模拟值(PEFS-K2-S~PEFS-K3-S), 以及PEFive-K2~PEFive-K3的模拟值(PEFive-K2-S~PEFive-K3-S)。

2 结果
2.1 PEFS-K

19个基因座的PEFS-K2-F~PEFS-K3-F和PEFS-K2-S~PEFS-K3-S表2

表2 19个STR基因座的PEFS-K Table 2 PEFS-K obtained from the calculation with 19 STR loci

根据累积排除概率公式[8], 进一步计算19个基因座的父母排除法累积排除率(CPEFS-K2和CPEFS-K3), 得CPEFS-K2=1-1.211 28× 10-3, CPEFS-K3=1-8.637 10× 10-6。结果表明:

1)各基因座的PEFS-K2的精确值和模拟值均极为接近, 因此穷举法计算的PEFS-K2精确值符合模拟实验验证。

2)各基因座的PEFS-K3的精确值和模拟值均极为接近, 因此穷举法计算的PEFS-K3精确值符合模拟实验验证。

3)各基因座上均有PEFS-K2< PEFS-K3, 这提示父母排除法的系统效能与已知同胞数成正比。

2.2 PEFive-K

19个基因座的PEFive-K2-F~PEFive-K3-F和PEFive-K2-S~PEFive-K3-S表3

表3 19个STR基因座的PEFive-K Table 3 PEFive-K obtained from the calculation with 19 STR loci

根据累积排除概率公式进一步计算19个基因座的五等位基因法累积排除率(CPEFive-K2和CPEFive-K3), 得CPEFive-K2=1-8.330 31× 10-2, CPEFive-K3=1-1.651 64× 10-2。结果表明:

1)各基因座的PEFive-K2的精确值和模拟值均极为接近, 因此穷举法计算的PEFive-K2精确值符合模拟实验验证。

2)各基因座的PEFive-K3的精确值和模拟值均极为接近, 因此穷举法计算的PEFive-K3精确值符合模拟实验验证。

3)各基因座上均有PEFive-K2< PEFive-K3, 这提示五等位基因法的系统效能与已知同胞数成正比。

4)各基因座上均有PEFive-K2< PEFS-K2, PEFive-K3< PEFS-K3。多基因座累积概率对比也有CPEFive-K2< CPEFS-K3, CPEFive-K3< CPEFS-K3。因此在相同已知同胞数下, 父母排除法的系统效能高于五等位基因排除法。

3 讨论

本研究提出了一种新的排除全同胞关系的方法, 即父母排除法。父母排除法和五等位基因法有相似之处:1)两者均基于孟德尔遗传规律, 利用基因分型进行判别; 2)利用多个个体的全部基因分型信息, 而不是2个个体的直接比对; 3)系统效能与检测基因座数成正比; 4)系统效能与已知同胞数成正比; 5)结论非常清晰明确, 即排除或不能排除。但父母排除法优势更明显:1)理论上, 父母排除法完全包含五等位基因法, 并且将五等位基因法没有考虑到的情况也包含在内; 2)单基因座对比, 在相同已知同胞数下, 单基因座五等位基因法的系统效能仅为父母排除法的35 %; 3)AGCU EX20试剂盒上的3已知同胞的父母排除法的系统效能(1-8.637 10× 10-6)仅略低于单亲鉴定的系统效能(1-6.990 35× 10-6), 基本满足全同胞鉴定要求, 故具有一定的法医学应用价值。五等位基因法的系统效能偏低, 缺乏足够的检测效力。因此父母排除法可作为五等位基因法的升级强化规则, 以提高检测效力, 更有利于排除全同胞关系。

在全国公安机关DNA数据库基础上, 以父母排除法为判别依据, 可进一步开发全同胞软件比对平台。例如当目标个体既无父母、也无子女, 但有2个或以上的已知同胞的情况下, 就可以利用软件比对平台以已知同胞基因分型逐一比对DNA数据库中的全部人员信息, 搜索出不能排除为全同胞关系的可疑人员。这对于公安机关寻找案件逃犯、嫌疑人、失踪人员、未知名尸体等目标个体提供了一种新的排查线索, 有可能对案件侦破发挥重要作用。

因为个体数较多、排列组合和排除方法均十分复杂, 所以本文提出以穷举法直接计算排除率的精确值, 绕过公式推导这一步。穷举法的本质是通过排列组合列出所有可能的基因型组合, 对每一种组合进行判别, 对其中符合条件的基因型组合分别计算概率, 最后累加全部符合条件的基因型组合的频率。这一算法中没有随机概念, 直接获得精确值。理论上也可以通过大量人工计算获得精确值, 但是排列组合过多, 计算量过大。以33个等位基因的FGA基因座为例, 则全体基因型集合有(33+1)× 33/2=561种, 3个个体的排列组合类型有5613≈ 1.8亿种。多个基因座的计算量更大, 因此穷举法必须建立在软件辅助的基础上。

本文的穷举法思路来源于计算机解决世界近代三大数学难题之一的四色问题。四色问题的排列组合可能性非常多, 数学分析非常复杂, 该问题提出后100余年未有数学证明方法。终于, 在1976年美国数学家K.Appel与W.Haken以两台计算机经1200个小时作100亿次判断分析, 才宣告了此四色定理的成功证明。计算机解决四色问题的原理是将全部可能性一一加以判断, 本文穷举法也是应用了这一原理。本文在19个基因座上作了约3500亿次全同胞判断, 计算耗用约120小时。穷举法完全适用于法医DNA的各种概率计算, 如个体识别、亲子鉴定和混合样本鉴定等。因为穷举法跳过公式推导, 所以特别适合于解决法医DNA中难以推导数学公式的复杂概率计算问题。

随机模拟法也是笔者常用的一种软件辅助方法, 其核心竞争力在于模拟随机样本, 有样本量无限、零成本、不受试剂盒和亲缘关系类型限制等多种优势。随机模拟法主要应用于概率分布统计[7]和数学公式的实验验证[9]。本文以随机模拟法设计实验, 对穷举法计算出的排除率精确值进行了多组检验, 全部符合模拟实验验证, 结果充分说明了穷举法的有效性和可靠性。根据需要, 今后法医DNA的概率问题可用公式推导值、穷举法精确值和模拟实验值的三重检验, 从而可更进一步提高概率计算的验证能力。

在分型无误的前提下, 理论上有1个STR基因座不符合父母排除法标准就应该怀疑全同胞关系。但考虑到基因突变的存在, 本文建议19个STR基因座上超过3个基因座不符合父母排除法标准可作为AGCU EX20试剂盒排除全同胞关系的标准。如有必要, 可进一步检测AGCU 21+1试剂盒, 联合检测39个STR基因座, 以提高排除能力。

父母排除法同样适用于认定2个或以上已知同胞的全同胞关系。以最常见的对2个已知同胞和比对样本进行全同胞鉴定为例, 以父母排除法为基础, 可定义多个已知同胞的全同胞亲权指数(PIFS-K)为:单基因座上, 比对样本与已知同胞不能排除为全同胞的可能性(X)与随机个体与已知同胞不能排除为全同胞的可能性(Y)之比值。

此外, 全同胞关系排除方法(父母排除法)是依据以双亲遗传为基础的特殊遗传规律, 适用于判断多个个体是否能排除全同胞关系。而多个已知同胞的全同胞排除率则是以概率表述的系统效能指标, 适用于多个已知同胞和比对样本间全同胞关系的鉴定效能评估, 同时也是多个已知同胞的全同胞亲权指数计算的前提条件。因此两者是完全不同的概念。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] 陆惠玲, 杨庆恩. 用ITO法计算两个体间的血缘关系机会[J]. 中国法医学杂志, 2002, 17(3): 188-191. [本文引用:1]
[2] 中华人民共和国司法部司法鉴定管理局. SF/Z JD0105002-2014生物学全同胞关系鉴定实施规范[S]. 北京: 中国标准出版社, 2014. [本文引用:1]
[3] 孙云龙, 杨金龙, 穆立伟, . IBS法和ITO法应用于全同胞鉴定中的探讨[J]. 中山大学学报(医学科学版), 2009, 35(3): 465-468. [本文引用:1]
[4] 张更谦, 王旭东, 张晓嘉, . 多个全同胞参与的全同胞关系排除方法[J]. 中国法医学杂志, 2015, 30(6): 567-570. [本文引用:1]
[5] 郑秀芬. 法医DNA分析[M]. 北京: 中国人民公安大学出版社, 2002: 423. [本文引用:1]
[6] 吴薇薇, 刘冰, 郝宏蕾, . 中国28个省/区汉族人群41个STR基因座多态性数据分析[J]. 中国法医学杂志, 2016, 31(1): 27-32. [本文引用:2]
[7] 周密, 张炜. 亲缘关系中等位基因共享分析[J]. 中国法医学杂志, 2015, 30(6): 571-573. [本文引用:3]
[8] 侯一平. 法医物证司法鉴定实务[M]. 北京: 法律出版社, 2013. [本文引用:1]
[9] 周密, 汪军. 法医遗传混合样本的组分数分析[J]. 刑事技术, 2017, 42(1): 30-33. [本文引用:1]