DNA来源人种族推断研究进展
聂昊1,4, 林子清4, 莫晓婷1,2,3, 魏以梁5,6, 孙启凡1,2,3,*
1.公安部物证鉴定中心,北京 100038
2.北京市现场物证检验工程技术研究中心,北京 100038
3.法医遗传学公安部重点实验室,北京 100038
4.中国刑事警察学院,沈阳 110854
5.清华大学医学院生物医学工程系,北京 100084
6.天津医科大学表观遗传中心,天津 300070
* 通讯作者: 孙启凡,主检法医师,博士,研究方向为法医遗传学。 E-mail: sunqifan@cifs.gov.cn

作者简介: 聂 昊,在读硕士研究生,研究方向为法医遗传学。 E-mail: oliverepoch@aliyun.com

摘要

随着跨地域跨国犯罪明显增加,通过对生物检材DNA深度遗传信息挖掘进行来源人特征刻画已成为研究热点,其中种族推断是非常重要的研究方向。用于种族推断常用的遗传标记称为祖先信息位点(AIMs),它是指在不同人群之间频率差异非常大的多态性基因位点,包括单核苷酸多态性(SNPs)、插入缺失(InDels)多态性等位点,其中SNPs成为筛选AIMs位点、分析人群遗传结构的重要遗传标记。本文重点对DNA来源人种族推断领域的研究现状、研究方法等进行论述,希冀对相关研究和实践提供参考和借鉴。

关键词: 种族推断; 祖先信息位点; 单核苷酸多态性
中图分类号:DF795.2 文献标志码:A 文章编号:1008-3650(2016)01-0016-04 doi: 10.16467/j.1008-3650.2016.01.003
Inference of Human Race Using Genetic Information
NIE Hao1,4, LIN Ziqing4, MO Xiaoting1,2,3, WEI Yiliang5,6, SUN Qifan1,2,3,*
1. Institute of Forensic Science, Ministry of Public Security, Beijing 100038, China
2. Beijing Engineering Research Center of Crime Scene Evidence Examination, Beijing 100038, China
3. Key Laboratory of Forensic Genetics, Ministry of Public Security, Beijing 100038, China
4. National Police University of China, Shenyang 110854, China
5. Department of Biomedical Engineering, School of Medicine, Tsinghua University, Beijing 100084, China
6. Tianjin 2011 Collaborative Innovation Center for Medical Epigenetics, Tianjin Medical University, Tianjin300070, China
Abstract

Due to the increase of floating population, the current trans-regional and cross-boundary crimes increase significantly. Human phenotype description studies covering race, age, appearance and other physiological characteristics, are of high interest in genetic association studies. With the extracted genetic information, the biologic evidence could reveal its origin and aid in criminal investigation. Among these is racial inference, which remains an important topic in forensic context. Ancestry informative markers (AIMs) are genetic sites with great different frequency between populations. It can be used to describe the genetic components of a population, to infer the ancestral origin of a DNA sample and then the possible physical characteristics of DNA donor. Of those said above, single nucleotide polymorphism (SNP) is the most commonly used because of its larger number and wider distribution in genome. The panel of SNPs can be designed by calculating the genetic parameters such as Fst, In, and others of the kind. The available techniques for SNP typing include multiple single base extension SNP (SNaPshot), SNPstream and MassArray. Many panels of ancestry informative SNPs have been proposed in recent years. These techniques are playing important roles in practical cases and thus enhance the ability of forensic genetic technology in mining human genetic information. Here we present the development, application and the research on the inference of human race from DNA evidence, aiming to provide a reference for further studies and the application of this technology in a wide range.

Keyword: human race inference; ancestry informative markers (AIMs); single nucleotide polymorphisms (SNPs)

随着国际化和全球经济化速度不断加快, 不同地域间人口、财产、物资流动频繁, 跨地区、跨国的犯罪数量日益上升, 社会危害性大, 侦查取证困难。进一步挖掘犯罪现场DNA样本所蕴含的遗传信息, 获取种族、地域来源等信息, 是法医遗传学领域极为重要的研究方向, 包括种族来源推断, 人类学、生理学特征推断和病理特征推断等方面[1]。本文重点对DNA来源人种族推断方向的研究现状、研究方法等进行综述, 以期为相关研究和应用提供参考借鉴。

1 种族推断研究现状

随着HapMap、NCBI 等数据库的不断发展, 以及二代测序等技术的诞生和不断完善, 越来越多蕴含在基因组中的信息被发掘, 包括基因与种族的关系。 Huckins等[2]使用多步运算法则衡量祖先信息位点(ancestry informative markers, AIMs)信息量, 区分目标人群在欧几里德几何学空间里组成的两三个人群成分以及所推断的祖先与已知的人群来源是否一致。Galanter 等[3]又使用446个优化后的位点估计美国人群祖先成分, 应用GWAS(genome-wide association study)数据选择AIMs, 进行确证实验, 使用4个混合人群的样本比较AIMs panel和GWAS panel, 最后用筛选的AIMs对其他18个来自美洲人群进行分型比较得出结论:由于欧洲的殖民历史, 美洲人成分中会有一小部分欧洲族群的基因信息, 同时由于西非的Luhya, Yoruba等人种迁徙到美洲地区, 以及一部分东南亚的奴隶被贩卖到美洲, 最终导致了美洲人群混合的基因成分。Phillips等[4]构建了34个常染色体SNP位点的单个复合体系, 以等位基因频率显著差别区分东亚、欧、非三大人种, 认为祖先推断的重点是在小范围内精心选择单核苷酸多态性(single nucleotide polymorphisms, SNPs)和插入/缺失多态性遗传标记(insertion/deletion polymorphisms, InDels), 包括34-plex SNPs SNaPshot和46-Indel dye-labeled PCR, 利用二者共80个标记可以挖掘深度数据。Kidd等[5]构建的128个AIMs复合体系对样本种族来源推断的准确率达到90%以上, 但是对于关联度较大的区域人群区分效果不理想, 如中欧国家, 而当AIMs位点数量增多时效果会更好。Qin等[6]使用了5540份中国汉族群体的样本, 使用757份样本用来选择AIMs位点, 构建了150个具有高度信息含量的SNPs位点的体系用来区分中国南北人群(以扬子江为界), 同时使用4783份样本验证AIMs的区分效果。国内Wei等[7]从Hapmap数据库中挑选了968个SNPs位点, 在哈温平衡(p> 0.00001)、人群特异性等位基因频率> 0.5以及连锁不平衡(r2< 0.2)的基础上构建27-plex复合体系, 并在11个人群共1164个样本中得到了良好验证, 能区分非洲、欧洲、东亚人群。Santos等[8]研究高原地区人群的特异性表型特征时发现, EPAS1、EGLN1、PPARA等基因被认为是藏族人群适应高原生活的假定区域, 在这些基因附近有频率差异较大的SNP位点适用于构建复合体系, 可能用于区分汉、藏人群。事实上, DNA来源人种族推断已经不仅仅停留在基础研究阶段, 早在2003年, Frudakis 等[9]利用基于56 个SNP 位点建立的遗传推断分类方法区分非洲、亚洲和欧洲人群, 并尝试用于案件检验, 如美国“ 2001~2003 年路易斯安那州系列杀人案” 。国内孙启凡等[10]利用94-plex SNPs复合扩增种族推断技术用于1例疑似美军飞行员遗骸鉴定案。

2 种族推断研究方法

DNA来源人种族推断作为法医遗传学的重要研究领域, 已经形成了相对成熟的研究方法, 包括祖先遗传标记位点的筛选与验证、实验体系构建、遗传数据的统计学分析等。

2.1 常用遗传标记

用于种族推断的遗传标记也被称为祖先信息位点(AIMs), 是指在不同人群之间基因频率差异非常大的多态性基因位点, 一组祖先信息位点可以分析某一人群的遗传成分构成, 也可以推断某一个体的祖先来源[11, 12]。单核苷酸多态性(SNPs)是指基因组内特定核苷酸位置上存在两种不同的碱基, 它广泛分布于基因组的编码区和非编码区, 可以提供有用的表型信息如生物地域上的祖先, 因其在基因组中数量较多且分布广泛, 成为筛选AIMs位点、分析人群遗传结构的重要遗传标记之一[13]。插入缺失(InDels)多态性是因一个或几个碱基对的插入、缺失或者移位而产生的多态性, 其基因频率存在较为明显的地域差异性, 因此该遗传标记不仅可以用于个体识别, 还可以作为祖先相关信息位点区分人群[14]。另外还有一系列DNA多态性的遗传标记有可能成为祖先信息位点, 包括常染色体STR, Y-STR, mtDNA等等。目前, 最常用于AIMs的遗传标记仍然是SNPs。

2.2 SNPs位点筛选

在DNA来源人推断研究技术体系的建立过程中, 位点筛选与验证极为重要。它的方法一般是:首先在Hapmap数据库中从一系列表型相关的基因上选取若干个SNPs位点, 这些基因可能与肤色、瞳孔颜色、黑色素代谢、免疫反应、泛素化以及脂质合成等代谢密切相关, 同时保证选取的SNPs位点具有较大差异的等位基因频率[15]; 其次通过计算人群的Fst、δ 、In(使用Plink软件)值来评估并筛选最佳位点, 除去不符合哈迪-温伯格平衡(P< 0.001)、染色体上物理距离≤ 500 kb pair和大洲内有异质性的位点, 并将人群特异性位点根据δ > 0.5的标准从大到小进行排序选择位点; 然后计算每个SNP位点的LSBL(locus specific branch length)以及每个位点在每个人群中的最低累积LSBL, 挑选数值尽可能相近的SNP位点[16]。最终确定的用来推断祖先的SNPs数量取决于人群进化的相似程度, 数量较少的SNPs不仅对于亲缘关系较近的人群很难区分, 如区分中国人和日本人就需要较多的SNPs, 还会引起一些极端现象即祖先成分的判断波动性很大。位点数过多会直接影响到体系构建的难易程度和灵敏度, 所以, 进一步筛选并减少位点, 同时又能保持最佳的人群区分效能是构建体系的关键。同时, 样本量的大小也会影响到分型结果的准确性, 当样本量很大时, 祖先推断结果与已知结果相比波动较小, 反之亦然。Daya等[17]认为96个AIMs在BeadXpress system 平台上可以对祖先来源进行很好的分析; Gettings等人[18]发现14个SNPs能够区分大洲间的祖先, 200个AIMs能够区分混合人群波多黎各的祖先。此外, AIMs数量与各个位点间的遗传距离成反比, 仅仅定位于基因组一小部分的SNPs和分布于整个基因组的SNPs在预测祖先来源时会有很大的差别, 使用不同数量AIMs构建的体系分别与全基因组数据比较进而得出推断祖先的相关系数可以衡量选取的AIMs的可靠性和准确性。

2.3 SNPs分型检测

SNPs是最主要的种族推断遗传标记, 大多表现为二等位基因, 易于分型和确定基因型频率。针对SNP的分型检测方法较多, 如基于杂交检测的方法、DNA直接测序等。这里将一般法医实验室目前最常用到的SNPs检测方法进行介绍。

2.3.1 多重单碱基延伸SNP分型技术(SNaPshot)

SNaPshot技术主要是针对中等通量的SNP分型进行检测[19]。在一个含有测序酶, 4种荧光标记的ddNTP, 紧挨多态性位点的5’ 端的不同长度延伸引物和PCR产物模版的反应体系中, 引物延伸一个碱基即终止, 经毛细管电泳后, 根据峰的颜色可知渗入的碱基种类, 从而确定该样本的基因型, 根据峰移动的位置确定该延伸产物对应的SNP位点。SNaPshot技术与其他技术相的优势包括:(1)分型准确, 准确度仅亚于直接测序; (2)多个位点可以同时检测; (3)不受SNP位点多态性限制, 可在一个体系中检测; (4)不受样本量的限制; (5)可以检出受污染的样本, 如果一个样本的分型峰谱偏离正常的分布, 可以提示该样本可能受到污染或浓度过低, 这也是其他分型方法所不具备的; (6)不依靠SNP特异性探针, 第三个等位基因不会使反应复杂化。SNaPshot技术因其简便、易操作, 一般法医遗传实验室常用仪器设备即可满足需求, 具有极强的实际应用价值。

2.3.2 SNPstream技术

SNPstream[20]是单碱基延伸反应和芯片技术相结合的高通量SNPs分析技术, 分为12-plex和48-plex两种可变通量通用标签微阵列芯片, 该技术体系需要三条引物, 即一对PCR引物和一条SNP-IT引物, 使用 384 孔杂交板, 可同时处理12或48个SNPs。板上的每一个孔中有16个或52个寡核苷酸标签, 固定在板上的标签序列与12个或48个延伸引物端标签序列互补杂交, 其余4个作为对照以确保其准确性。该技术具有快速、灵敏、准确、高效等特点, 是一种适用于中、高通量的 SNP 分型检测系统, 在科研工作中具有较强的实用性。国内Wei等[21]基于此分析技术构建了集个体识别、ABO基因分型和性别鉴定于一体的47个位点的复合检测体系。

2.3.3 飞行时间质谱技术(MassArray)

MassArray技术[22]是结合多重PCR技术、Mass-ARRAY iPLEX单碱基延伸技术, 和基质辅助激光解吸附电离飞行时间质谱分析技术(matrix-assisted laser desorption/ionization-time of flight, MALDI-TOF)进行分型检测, 基本原理是在激光飞行时间质谱仪中, 样品被基质吸附后形成晶体, 在激光激发下变成亚稳态的离子, 继而在强电场作用下, 在真空管中飞行到达检测器。离子质量越小, 带的负电荷越多, 会越快到达检测器, 从而可以准确鉴别分子量相差很小的核苷酸片段。与其他分型方法相比, 该系统具有非杂交依赖性, 不存在潜在的杂交错配干扰, 不需要标记物, 直接测定延伸后产物分子量的差异且精确度高, 因此具有较好的应用前景。

2.4 SNPs分型数据分析

在使用传统的第二代遗传标STR进行个体识别或亲缘鉴定时, 毛细管电泳后得到的分型即可以为分析者提供直观的信息。使用SNPs位点进行种族推断则不同, 通过实验检测得到SNPs分型后, 并不能直接判断DNA供者的祖先来源, 需对分型数据进一步计算分析。对于个体的群体来源分析, 一般采用遗传成分分析与群体匹配概率分析结合的方法, 对分析结果进行科学的阐述, 其中比较常用的分析软件如STRUCTURE[23]与Forensic Intelligence[7]软件, 分别可以计算群体祖先成分与人群随机匹配概率值, 二者结合可判断个体的祖先来源。

3 结 论

作为AIMs遗传标记, SNPs在种族推断、表型推断、个体识别等方面有着巨大的潜力。我国是一个多民族国家, 由于一直以来频繁的人员流动导致的民族融合现象为开展种族推断增加了一定的难度, 这就要求研究者们挑选大量的SNPs分型, 才能明确犯罪嫌疑人的种族、地域来源[24], 为侦查提供更为详实的资料。同时, 世界范围内不同种族和民族间差异较大, 很难找到既能区分全球不同地域人群, 又能区分区域内不同亚群的一组SNPs位点, 这就需要建立不同位点数量的梯度复合体系以实现不同人群的区分。现有的SNP检测方法大多价格昂贵, 检测周期长, 检测通量低且不利于推广应用, 这就要求我们不断提高SNP的分析水平, 建立更简便的复合检测体系[25], 研发高通量、操作简便的检测设备将会是发展所驱。另外值得注意的是, 与传统研究领域不同, 在使用实验手段得到的分型结果进行祖先成分分析时还需考虑该样本所属人群的历史因素, 社会因素, 文化因素等, 以提高判断结果的准确性。

参考文献
[1] 孙启凡, 赵蕾, 江丽, . DNA来源人特征刻画的法庭科学应用研究概况. 刑事技术, 2015, 40(3): 232-235. [本文引用:1]
[2] Huckins LM, Boraska V, Franklin CS, et al. Using ancestry-informative markers to identify fine structure across 15 populations of European origin. Eur J Hum Genet, 2014, 22(10): 1190-1200. [本文引用:1]
[3] Galanter JM, Fernand ez-Lopez JC, Gignoux CR, et al. Development of a panel of Genome-wide ancestry informative markers to study admixture throughout the Americas. PLoS Genet, 2012, 8(3): 1-14. [本文引用:1]
[4] Phillips C, Salas A, Sanchez JJ, et al. Inferring ancestral origin using a single multiplex assay of ancestry-informative marker SNPs. Forensic Sci Int Genet, 2007, 1(3-4): 273-280. [本文引用:1]
[5] Kidd JR, Friedlaender FR, Speed WC, et al. Analyses of a set of 128 ancestry informative single-nucleotide polymorphisms in a global set of 119 population samples. Investing Genet, 2011, 2(1): 1-13. [本文引用:1]
[6] Qin PF, Li ZQ, Jin WF, et al. A panel of ancestry informative markers to estimate and correct potential effects of population stratification in Han Chinese. Eur J Hum Genet, 2014, 22(2): 248-253. [本文引用:1]
[7] Wei YL, Wei L, Zhao L, et al. A single tube 27-plex SNP assay for estimating individual ancestry and admixture from three continents. Int J Legal Med, 2015. [Epub ahead of print]. [本文引用:2]
[8] Santos C, Fondevila M, Ballard D, et al. Forensic ancestry analysis with two capillary electrophoresis ancestry informative marker (AIM) panels: Results of a collaborative EDNAP exercise. Forensic Sci Int Genet, 2015, 19: 56-6. [本文引用:1]
[9] Frudakis T, Venkateswarlu K, Thomas MJ, et al. A classifier for the SNP-based inference of ancestry. J Forensic Sci, 2003, 48(4): 771-782. [本文引用:1]
[10] 孙启凡, 赵蕾, 孙敬, . 利用SNP复合扩增技术推断骨骼所属人种1例. 中国法医学杂志, 2015, 30(2): 194-195. [本文引用:1]
[11] Lou CG, Cong B, Li SJ, et al. A SNaPshot assay for genotying 44 individual identification single nucleotide polymorphisms. Electrophoresis, 2011, 32(3-4): 368-378. [本文引用:1]
[12] Cho S, Yu HJ, Han J, et al. Forensic application of SNP-based resequencing array for individual identification. Forensic Sci Int Genet, 2014, 13: 45-52. [本文引用:1]
[13] Halder I, Shriver M, Thomas M, et al. A panel of ancestry informative markers for estimating individual biogeographical ancestry and admixture from four continents: Utility and applications. Hum Mutat, 2008, 29(5): 648-658. [本文引用:1]
[14] Santos C, Phillips C, Oldoni F, et al. Completion of a worldwide reference panel of samples for an ancestry informative Indel assay. Forenic Sci Int Genet, 2015, 17: 75-80. [本文引用:1]
[15] 李彩霞, 贾竟, 魏以梁, . 30个祖先信息位点的筛选及应用. 遗传, 2014, 36(8): 779-785. [本文引用:1]
[16] Pardo-Seco J, Martinon-Torres F, Salas A, et al. Evaluating the accuracy of AIM panels at quantifying genome ancestry. BMC Genomics, 2014, 15: 543. [本文引用:1]
[17] Daya M, van der Merwe L, Galal U, et al. A panel of ancestry informative markers for the complex five-way admixed south African coloured population. PLoS One, 2013, 8(12): e82224. [本文引用:1]
[18] Gettings KB, Lai R, Johnson JL, et al. A 50-SNP assay for biogeographic ancestry and phenotype prediction in the US population. Forensic Sci Int Genet, 2014, 8(1): 101-108. [本文引用:1]
[19] 于子辉, 李彩霞, 季安全, . SNPlex系统检测方法及在法医遗传学中的应用前景. 刑事技术, 2008, 3: 41-44. [本文引用:1]
[20] 李成涛, 赵书民, 柳燕. DNA鉴定前沿. 北京: 科学出版社, 2011. [本文引用:1]
[21] Wei YL, Li CX, Jia J, et al. Forensic identification using a multiplex assay of 47 SNPs. J Forensic Sci, 2012, 57(6): 1448-1456. [本文引用:1]
[22] Clendenen TV, Rendleman J, Ge W, et al. Genotyping of single nucleotide polymorphisms in DNA isolated from serum using sequenom MassARRAY technology. PLoS One, 2015, 10(8): e0135943. [本文引用:1]
[23] Falush D, Stephens M, Pritchard JK, et al. Inference of population structure using multilocus genotype data: Dominant markers and null alleles. Mol Ecol Notes, 2007, 7(4): 574-578. [本文引用:1]
[24] Nievergelt CM, Maihofer AX, Shekhtman T, et al. Inference of human continental origin and admixture proportions using a highly discriminative ancestry informative 41-SNP panel. Investing Genet, 2013, 4(1): 13. [本文引用:1]
[25] Homer N, Szelinger S, Redman M, et al. Resolving individuals contributing trace amounts of DNA to highly complex mixtures using high-density SNP genotyping microarrays. PloS Genet, 2008, 4(8): e1000167. [本文引用:1]