用于中国人群个体识别的InDel多重PCR系统的构建
王玮1, 赵蕾2, 江丽2, 刘京2, 黄美莎1, 李冉冉1, 刘佳佳1, 马泉2, 王英元1, 李彩霞1,2, *
* 通讯作者:李彩霞(1976—),女,山西临汾人,博士,主任法医师,研究方向为法医遗传学。E-mail:licaixia@tsinghua.org.cn

第一作者简介:王玮(1988—),女,山西太原人,硕士研究生,研究方向为法医遗传学。E-mail:wang.wei614@163.com

摘要

目的 利用插入–缺失多态性(insertion-deletion,InDel)遗传标记,建立一套可用于鉴定中国人群的法医DNA复合扩增体系。方法 利用dbSNP数据库,筛选出30个在中国人群中有高度遗传多态性的InDel位点,建立复合多重PCR扩增体系,并对汉族、哈萨克族、傣族、苗族与瑶族进行遗传多态性调查。结果 成功建立了一套包含30个InDel位点与1个性别鉴定基因座、共31个遗传标记的复合多重PCR扩增体系。在5个民族的遗传多态性调查中,累积个体识别率分别为0.999999999957、0.999999999990、0.999999999974、0.999999999875及0.999999999966,具有较高的遗传多态性;群体间FST值均小于0.0448,在群体间差异很小。结论 本体系可用于中国人群的法医DNA个体识别。

关键词: 法医遗传学; 插入–; 缺失多态性; 个体识别
中图分类号:DF795.2 文献标志码:A 文章编号:1008-3650(2017)01-0001-08 doi: 10.16467/j.1008-3650.2017.01.001
Constructing a Multiplex PCR System for Personal Identification by the InDel Polymorphism of Chinese Population
WANG Wei1, ZHAO Lei2, JIANG Li2, LIU Jing2, HUANG Meisha1, LI Ranran1, LIU Jiajia1, MA Quan2, WANG Yingyuan1, LI Caixia1,2,*
1. Shanxi Medical University, Taiyuan 030001, China
2. Institute of Forensic Science of Ministry of Public Security & Beijing Engineering Research Center for Evidence Examination of Crime Scene, Beijing 100038, China
Abstract

ObjectiveTo establish a multiplex PCR system by the insertion-deletion polymorphic (InDel) genetic markers for forensic DNA identification of Chinese population.Methods 30 highly-polymorphic InDel markers were selected by resort of the dbSNP database for Chinese population. The multiplex PCR system was developed by a five-fluorescence dye labeling system. The InDel polymorphism in the ethnic populations of Han, Kazak, Dai, Miao and Yao was investigated and its genetic characteristics determined.Results A multiplex PCR system, containing 30 highly polymorphic InDel markers and an Amelogenin gender marker, has been successfully established. The cumulative discrimination power (CDP) of the 30 InDel markers is respective of 0.999999999957, 0.99999999999, 0.999999999974, 0.999999999875 and 0.999999999966 for the Han, Kazak, Dai, Miao and Yao ethnic population while the pairwise FST estimates between every two populations are less than 0.0448. Genetic survey showed that the 30 InDel markers are of highly polymorphism and small differences between ethnic groups.Conclusion The established multiplex PCR system is able to be used for forensic DNA identification of Chinese population.

Key words: forensic genetics; insertion-deletion (InDel) polymorphism; personal identification

插入– 缺失多态性(Insertion-Deletion, InDel), 是一段DNA片段因插入或缺失所形成的特殊类型的二等位基因多态性。相对于STR与SNP, InDel的特点有:a.广泛分布在整个基因组中[1, 2]; b.缘于突变且频率低, 发生后较稳定, 不易再突变[3]; c.可作为始祖信息位点判断地域来源[1, 4]; d.可在较小的扩增子中扩增, 适用于降解DNA的检测[1, 2]; e.可利用法医DNA实验室现有的仪器设备进行基因分型; f.能同时用于自动化和高通量的技术[1, 2]。因此, InDel愈益受到关注, 且已有多位学者建立了适用于本民族多态性研究的复合体系[5, 6, 7]。本研究采用五色荧光毛细管电泳技术, 并使用国产扩增试剂缓冲液体系, 建立一套可用于鉴定中国人群的法医DNA复合扩增体系。

1 材料与方法
1.1 InDel位点筛选

依据美国国家生物信息中心(National Center for Biotechnology Information, NCBI), 并结合现有文献报道[6, 8-12], 选择InDel位点:插入或缺失的碱基介于2~30bp之间, 位于内含子区域, 在SNP数据库(SNP database, dbSNP)中该InDel位点的最低等位基因频率(Minor Allele Frequency, MAF)大于0.2、杂合度大于等于0.4, 在不同人群间等位基因频率差别小(FST值< 0.06)[13], 散布于22条染色体上, 同一染色体上InDel位点间距不小于5MB[5], 在中国汉族人群中的分布符合Hardy-Weinberg遗传平衡。按照以上标准筛选出符合要求的83个位点, 挑选中国不同民族的检验样本, 以Sequenom方法对83个位点进行检测, 得到分型信息, 计算等位基因频率、期望杂合度、Hardy-Weinberg以及连锁平衡性信息等, 最终确定30个InDel位点用于复合扩增。此30个位点仅用于法医学个体识别, 未见与医疗敏感信息相关联的文献报道。

1.2 样本制备

根据知情同意原则, 采集421份无关个体的新鲜外周静脉血样, 其中北京汉族94份, 云南傣族97份, 新疆哈萨克族95份, 广西苗、瑶族各69、66份。按照QIAamp® DNA Blood Midi Kit说明书(Qiagen, 德国)提取血样DNA。所有DNA均经Nanodrop2000c(Thermo Scientific, 美国)定量, 用超纯水稀释为0.5~1.0 ng/μ L待用。

1.3 主要试剂与仪器

2× MasterMix、人类标准品(9947A, 1ng/μ L)、分子量内标Typer500(公安部物证鉴定中心), POP7电泳凝胶、去离子甲酰胺(美国AB公司), 荧光标记PCR引物(上海生工)。9700型PCR仪、3130xL遗传分析仪(美国AB公司)。

1.4 五色荧光标记多重PCR扩增体系

采用Primer premier 5.0设计30个InDel位点及Amelogenin性别基因座的PCR引物, 分别采用FAM、HEX、TAMERA和ROX荧光素标记, 以9947A为模板进行PCR扩增。多重PCR扩增体系为10.0 μ L(2× MasterMix 5.0μ L, PrimerMix 4.0 μ L, 模板DNA 1.0 μ L), 扩增条件为95 ℃、11min; 94 ℃、30 s, 60 ℃、120 s, 72 ℃、90 s, 共30个循环; 60 ℃延伸60 min。

1.5 五色荧光标记多重PCR扩增体系分析方法的建立

五色荧光标记多重PCR扩增体系经3130xL遗传分析仪电泳后, 采用美国AB公司GeneMapper v3.2软件进行结果分析。将所选择的InDel位点以9947A为模板进行单位点扩增, 通过毛细管电泳和软件分析得到每个位点的遗传参数, 按照软件说明书, 制作适用于本研究的Panel文件、bin文件及方法文件。

1.6 统计分析

利用Modified-Power states软件包[14]计算各个位点的等位基因频率(Allelic Frequency, AF)、个体识别率(Discrimination power, DP)、期望杂合度(Expected heterozygosity, He)、非父排除概率(Power of Exclusion, PE)、匹配概率(Matching Probability, MP)、累积个体识别率(Cumulative Discrimination Power, CDP)、累积非父排除概率(Cumulative Probability of Exclusion, CPE)及随机匹配概率(Random Matching Probability, RMP)。同一染色体上各位点的连锁不平衡分析采用Haploview 4.2[15]计算, InDel各位点的Hardy-Weinberg平衡检验、FST遗传距离及汉族与其他民族之间等位基因频率的Fisher精确概率检验采用GenePop V4.2[16] (http://www.genepop.curtin.edu.au)计算, 利用Arlequin 3.5[17]做分子方差分析(analysis of molecular variance, AMOVA)。

2 结果
2.1 多重PCR体系的建立

利用1.1方法所筛选出的30个位点及一个Amelogenin基因座构建多重PCR体系, 其中Amelogenin基因座为性别鉴定基因座, 命名为X与Y, 即在X与Y染色体上, 在本体系的扩增子中相差6bp。30个InDel位点信息见表1。利用复合扩增体系检验9947A的分型(图1)。

表1 30个插入– 缺失多态位点信息 Table 1 Details of the selected 30 InDel markers

图1 9947A分型图谱Fig.1 InDel Types from 9947A DNA

2.2 各InDel位点在不同民族中的等位基因频率及其分布差异

30个InDel位点在汉族、哈萨克族、傣族、苗和瑶族的等位基因频率及各位点的FST值见表2。经Fisher精确概率检验比较汉族与哈萨克族、汉族与傣族、汉族与苗族以及汉族与瑶族等位基因频率的差异, 其中有14个位点有统计学意义, 在表2中用粗体显示(p < 0.0125, 经Bonferroni校正)。AMOVA结果表明在群体间的差异为2.3 %, 即97.7 %的差异来自群体内。群体间两两比较的FST遗传距离见表3

表2 30个插入– 缺失多态位点在5个民族中等位基因的频率 Table 2 Allelic frequencies of 30 InDel markers in five ethnic populations
表3 5个民族之间两两比较的FST遗传距离 Table 3 Pairwise genetic distances estimated by FST values between five ethnic populations
2.3 30个InDel位点在不同民族的平衡检验

经Bonferroni校正, Hardy-Weinberg平衡检验, 30个InDel位点在各民族中均达到遗传平衡。在同一染色体上的InDel位点, 两两计算r2值, 均小于0.02, 互不连锁, 符合连锁平衡检验。

2.4 各InDel位点在不同民族中的法医学参数

在不同民族中的个体识别率DP、杂合度He及累积个体识别率CDP见表4, 非父排除概率PE、累积非父排除概率CPE、匹配概率MP及随机匹配概率RMP见表5

表4 30个位点在各民族中的DP和He值 Table 4 Both DP and He values of 30 InDel markers in five ethnic populations
表5 30个位点在各民族中的MP和PE值 Table 5 Both MP and PE values of 30 InDel markers in five ethnic populations
3 讨论

插入– 缺失多态性遗传标记兼具STR(Short tandem repeat, STR)和SNP(Single nucleotide polymorphism, SNP)的特点, 在本质上与STR更类似, 故属于长度多态性[18], 可使用目前法医DNA实验室普遍使用的毛细管电泳技术平台分析, 分型技术易于掌握和普及; 但其突变与SNP类似, 均源自于单突变事件, 突变率比STR低, 约为10-8, 相对较稳定; 其结构属于二等位基因多态性, 等位基因都固定且已知, 能通过很小的扩增片段进行扩增(< 100bp), 适用于高度降解DNA片段的检验[1, 2]

本研究中, 通过筛选出互不连锁的30个InDel位点和一个性别鉴定Amelogenin基因座, 共同组成了31个遗传标记的复合多重PCR扩增体系, 并通过毛细管电泳技术, 建立了一套可用于法医DNA实验室补充鉴定的工具。本研究中调查的汉族、哈萨克族、傣族、苗族及瑶族的遗传多态性信息, 平均He分别为0.392、0.420、0.398、0.385、0.387; 平均DP分别为0.535、0.561、0.547、0.513、0.541, 而CPD分别达到0.999999999957、0.999999999990、0.999999999990、0.999999999990、0.999999999966; CPE值分别为0.985806214404、0.991703261452、0.985349899681、0.989454441374、0.981878316634; RMP分别为4.291E-11、9.829E-12、2.600E-11、1.248E-10、3.401E-11。表6为包括本研究在内的5种不同体系, 汉族人群的CDP、CPE与RMP的比较, 其中本研究与Qiagen公司的Investigator® DIPplex的成品化试剂盒的系统效能相当, 基本等同于9个STR的系统效能, 与42个IISNPs位点及18个STR基因座的系统效能差别较大。有学者认为, 像InDel这样的二等位基因遗传标记, 若要达到与目前法医鉴定中常用的商品化STR试剂盒同等的个体识别能力需要有60个这样的位点[19], 这与本体系的调查相一致。在本扩增体系中, 31个遗传标记的扩增子大小均小于220bp, 虽然限制了增加标记数的可能性, 但却增加了对降解DNA检材检验的成功率, 故可作为STR检测体系的有力补充。

表6 不同体系的CDP、CPE及RMP比较 Table 6 Comparison of CDP, CPE and RMP in different test systems

在群体间差异性调查中, 哈萨克族、傣族、苗族、瑶族分别与汉族进行Fisher精确概率检验, 检验水准α =0.05, 经过Bonferroni校正α =0.0125(0.05/4), 这表明, 在汉族与其它4个民族间有14个位点具统计学意义, 基因频率存在差异; AMOVA是对Wright的F统计量方差做分组分析的非参数统计方法, 估计群体间、群体内及个体间等组别的方差变异占总变异的比例[25], 结果显示, 仅有2.3 %的遗传变异来自于群体间的差异, 亦即97.7 %的遗传变异来自群体内的个体差异。

FST是表征亚群体间的遗传分化尺度, 可以对不同人群之间遗传关系的远近进行量化。FST值的大小反应了每个位点的等位基因频率在群体间变异程度, FST值越小, 说明变异程度越小。有学者认为通过群体计算得到的FST值< 0.06[13]可保证所选择的位点适用于不同的群体, 从而得到稳定的个体识别效力。在本研究中, 除33与75号位点外, 其余位点均达到此标准。33号位点中, 苗族的等位基因频率及期望杂合度与其余4个民族有显著差异, 除去苗族计算其余4个民族的FST值为0.002, 说明此位点可适用于大多数群体; 75号位点的FST值为0.078, 考虑原因为样本量过小所致, 在后续研究中增加样本量, 得到了更准确的结果。汉族、哈萨克族与傣族的样本来源分别为北京市、新疆维吾尔自治区和云南省, 苗族与瑶族则源于广西自治区, 地域相差如此之广的5个民族在群体间两两比较的FST遗传距离的最大值为0.0448, 说明30个InDel位点地域的差异并不影响群体间的变异程度。不同的统计方法均表明, 本研究筛选的位点在群体间差异性很小, 可适用于不同人群。

本系统的不足之处在于InDel位点较少, 目前不能完全替代STR这种突变率较高的遗传标记, 但是由于扩增子较小, 使其具备了检验降解DNA的可能, 为后续关于降解检材的研究奠定了基础。本文中调查的5个群体由于样本量偏少, 导致个别群体遗传数据统计结果出现偏差, 在后续研究中将进一步扩大样本量, 以期得到更为准确的结果。本系统与现有商品化或自行研发的InDel复合扩增系统相比, 在累积个体识别率相当的情况下, 所有试剂均使用国产试剂, 降低了检测成本, 为InDel标记应用于中国人群奠定了基础, 可作为STR检测体系分析DNA样本的辅助和补充工具。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。

参考文献
[1] WEBER J L, DAVID D, HEIL J, et al. Human diallelic insertion/deletion polymorphisms[J]. American Journal of Human Genetics, 2002, 71(4): 854-862. [本文引用:4]
[2] MILLS R E, LUTTIG C T, LARKINS C E, et al. An initial map of insertion and deletion (INDEL) variation in the human genome[J]. Genome Research, 2006, 16(9): 1182-1190. [本文引用:4]
[3] NACHMAN M, CROWELL S. Estimate of the mutation rate per nucleotide in humans[J]. Genetics, 2000, 156(1): 297-304. [本文引用:1]
[4] YANG N, LI H, CRISWELL L A, et al. Examination of ancestry and ethnic affiliation using highly informative diallelic DNA markers: application to diverse and admixed populations and implications for clinical epidemiology and forensic medicine[J]. Human Genetics, 2005, 118(3-4): 382-392. [本文引用:1]
[5] 赵书民, 张素华, 李成涛. InDel_typer30: 用于中国5个主要民族DNA鉴定的多重PCR系统[J]. 法医学杂志, 2010, 26(5): 343-348. [本文引用:1]
[6] MANTA F, CAIAFA A, RUI P, et al. Indel markers: Genetic diversity of 38 polymorphisms in Brazilian populations and application in a paternity investigation with post mortem material[J]. Forensic Science International (Genetics), 2012, 6(5): 658-661. [本文引用:1]
[7] RUI P, PHILLIPS C, ALVES C, et al. A new multiplex for human identification using insertion/deletion polymorphisms[J]. Electrophoresis, 2009, 30(21): 3682-3690. [本文引用:1]
[8] Qiagen. Investigator® DIPplex. http://www.qiagen.com/knowledge-and-support/resource-center/resource-download.aspx?id=97ae8219-edbf-495b-b6d5-a33b9df6a687&lang=en. [本文引用:1]
[9] LI C, ZHANG S, LI L, et al. Selection of 29 highly informative InDel markers for human identification and paternity analysis in Chinese Han population by the SNPlex genotyping system[J]. Molecular Biology Reports, 2012, 39(3): 3143-3152. [本文引用:1]
[10] FRANCEZ PADC, RIBEIRO-RODRIGUES EM, SANTOS SEBD. Allelic frequencies and statistical data obtained from 48 AIM INDEL loci in an admixed population from the Brazilian Amazon[J]. Forensic Science International (Genetics), 2011, 6(1): 132-135. [本文引用:1]
[11] ZAUMSEGEL D, ROTHSCHILD M A, SCHNEIDER P M. A 21-marker insertion deletion polymorphism panel to study biogeographic ancestry[J]. Forensic Science International (Genetics), 2013, 7(2): 305-312. [本文引用:1]
[12] MARTINEZ B, BUILES J J, GAVIRIA A, et al. Population genetic data of 38 autosomal InDels in San Basilio de Palenque, the first free town in America[J]. Forensic Science International (Genetics Supplement), 2013, 4(1): e73-e74. [本文引用:1]
[13] FANG R, PAKSTIS A J, HYLAND F, et al. Multiplexed SNP detection panels for human identification[J]. Forensic Science International (Genetics Supplement), 2009, 2(1): 538-539. [本文引用:2]
[14] 赵方, 伍新尧, 蔡贵庆, . Modified-Powerstates软件在法医生物统计中应用[J]. 中国法医学杂志, 2003, 18(5): 297-298. [本文引用:1]
[15] BARRETT J C, FRY B, MALLER J, et al. Haploview: analysis and visualization of LD and haplotype maps[J]. Bioinformatics, 2005, 21(2): 263-265. [本文引用:1]
[16] ROUSSET F. Genepop’007: a complete re-implementation of the genepop software for Windows and Linux[J]. Molecular Ecology Resources, 2008, 8(1): 103-106. [本文引用:1]
[17] EXCOFFIER L, LAVAL G, SCHNEIDER S. Arlequin (version 3. 0): an integrated software package for population genetics data analysis[J]. Evolutionary Bioinformatics Online, 2005, 1(4A): L418-L421. [本文引用:1]
[18] BUTLER J M. Advanced topics in forensic DNA typing: Methodology. Elsevier/Academic Press, 2011. [本文引用:1]
[19] GILL P. An assessment of the utility of single nucleotide polymorphisms (SNPs) for forensic purposes[J]. International Journal of Legal Medicine, 2001, 114(4-5): 204-210. [本文引用:1]
[20] 百茹峰, 姜立喆, 张中, . 北京汉族群体30个常染色体InDel位点群体遗传学及法医学研究[J]. 遗传, 2013, 35(12): 1368-1376. [本文引用:1]
[21] 秦翠娇, 迪力夏提·塔什, 贾竟, 等. 30个InDels在中国三个民族的遗传学调查及法医学应用[J]. 中国法医学杂志, 2014, 29(4): 299-303. [本文引用:1]
[22] 牛一平, 范敏. 石家庄地区汉族群体9个STR基因座遗传多态性[J]. 中国法医学杂志, 2008, 23(6): 408-409. [本文引用:1]
[23] WEI Y L, LI C X, JIA J, et al. Forensic identification using a multiplex assay of 47 SNPs*[J]. Journal of Forensic Sciences, 2012, 57(6): 1448-1456. [本文引用:1]
[24] 周晶, 牛一平, 杜潇. 石家庄地区汉族人群18个STR基因座遗传多态性调查[J]. 刑事技术, 2015, 40(3): 244-245. [本文引用:1]
[25] EXCOFFIER L, SMOUSE P E, QUATTRO J M. Analysis of molecular variance inferred from metric distances among DNA haplotypes: Application to human mitochondrial DNA restriction data[J]. Genetics, 1992, 31(2): 479-491. [本文引用:1]