用Y-STR单倍型信息指导数据库采样分析
吴微微1, 任文彦1, 郝宏蕾1, 苏艳佳1, 吕德坚2
1.浙江省公安厅刑侦总队,杭州 310009
2.中山大学医学院法医学系,广州 510089
吕德坚,E-mail:dejian6182@sina.com

作者简介:吴微微(1971— ),女,浙江乐清人,副主任法医师,医学学士,主要从事法医学DNA分析技术的检案与应用研究工作。

摘要

目的分析浙江省绍兴诸暨市(县级市)各镇、村和姓的Y-STR单倍型分布,为Y-STR数据库的采样与应用提供依据。方法采集诸暨市17个镇156村的55个姓氏,且各镇-村有同姓人员10人以上(含)的家族样本5903份男性个体血样。采用YfilerTM复合扩增试剂盒进行17个Y-STR分型,所得数据进行镇(乡/街道)/村/姓氏的组合和镇(乡/街道)/村/姓氏/单倍型组合分布情况统计分析。结果在5903份男性样本中,获得1987种Y-STR单倍型,它们分布于235种镇(乡/街道)/村/姓氏组合,共构成2547种镇(乡/街道)/村/姓氏/单倍型组合。各单倍型对应的“镇/村/姓”组合次数出现从1到18次不等,其中有1686种单倍型对应1种镇-村-姓组合(84.9%),绝大部分的单倍型对应1~2种镇-村-姓组合(95.3%)。各镇/村中同姓人员出现的主流分型大部分为1~2种(90.7%)。在镇/村的同姓人员中出现次要分型的频率平均为18.22%。结论Y-STR数据库在诸暨的采样在家族调查的基础上,应针对次要分型较多的姓增加采样量,减少遗漏风险,获得高质量的YSTR数据库。

关键词: 法医物证学; Y染色体; 短串联重复序列(STR); 单倍型; 样本采集
中图分类号:DF795.2 文献标志码:A 文章编号:1008-3650(2013)01-0003-03
An analysis of samples collection for database from Y-STR haplotypes
WU Wei-wei, REN Wen-yan, HAO Hong-Lei, et al
Criminal Investigation Department, Zhejiang Province, Hangzhou 310009, China
Abstract

Objective To deveplope a guidline for samples collection of Y-STR database in Zhuji region of Zhejiang Province. Methods 5903 male bloodstain samples were collected from 56 surnames that belong to 156 villages in 17 towns of Zhuji area. The samples were typed using a 17 Y-STRs Y-filer PCR amplification Kit. The distribution of Y-STR haplotype was analyzed according to the different combinations of town-village-surname.Results A total of 1987 different haplotypes were found in 235 combinations of town-village-surname. The number of combinations of town-village-surname-haplotype was 2547. The haplotype numbers occurred in the different combinations of town-village-surname ranged from 1 to 18. 1686 unique combination of town-village-surname-haplotype was observed. Most of haplotypes(95.3%) belong to 1-2 combinations of town-village-surname. One to two major haplotypes was detected in 90.7% town-village-surname. The minor haplotypes frequency reached 18.22%.Conclusion The results show that more samples are need to be collected from the surnames which villages have a high ratio of minor haplytpes based on the family infromation. This may be helpful to avoid dropping some hapltypes in Y-STR database of Zhuji region in Zhejiang Province.

Keyword: Y-chromosome; short tandem repeat(STR); haplotype; DNA database; samples collection

Y染色体STR具有父系遗传特点, 同一父系个体具有相同单倍型, 根据Y染色体STR的分型结果, 在个体识别上可以缩小侦查范围, 具有常染色体STR技术不可比拟的作用, 近年来Y-STR数据库建库工作逐渐受到重视。在Y-STR建库过程中, 采样是关键环节, 样本采集是否科学合理, 直接关系到数据库的质量, 关系到建库经费的合理安排, 也影响破案效益的发挥。本文采用YfilerTM试剂盒分析浙江省绍兴诸暨市各镇、村和姓的Y-STR单倍型分布, 为Y-STR建库的采样与应用提供基础数据, 报道如下。

1 材料与方法
1.1 样 本

5903人份男性个体血样采集于绍兴诸暨市17个镇156村的55个姓氏, 90.4%的村包含1~2姓, 样本主要来自农村, 根据各村庄姓氏族谱调查后, 对不同姓氏的家族进行采样。采样原则是:为提高建库效率, 即以60岁左右男性为中心, 往上排二代, 往下排二代, 如往下有三代的也列入族系图内, 约每5~8人提取1份检材。收集每镇-村有同姓人员10人以上(含)的家族, 平均每镇-村有同姓人员25人。

1.2 主要仪器与试剂

自动工作站(TECAN公司, 瑞士), 3130XL型基因分析仪(AB公司, 美国), 9700型扩增仪(AB公司, 美国), YfilerTM试剂盒(AB公司, 美国)。

1.3 方 法

所有血样均采用磁珠法利用自动工作站提取DNA[1]。参照文献[2]进行复合扩增, 10μ L扩增体系, 内含有引物2μ L, PCR反应缓冲液3.7μ L, 热循环参数参照试剂盒说明书。Y-STR分型数据采用GeneMapper ID v3.2分析软件进行分析, 以标准阶梯等位基因为标准进行基因型分型。

1.4 数据统计

统计样本中镇(乡/街道)/村/姓氏(以下简称“ 镇/村/姓” )的分布情况, 镇/村/姓/单倍型组合分布情况(包括主流分型与次要分型的分布情况), 以及各单倍型在镇(乡/街道)/村/姓组合中的分布情况。

1.5 分类原则

同一单倍型有3人以上者计为主流分型之一; 同村有多种主流分型的, 两者之间相差3个以上等位基因分型; 主流分型两种以上的, 次要分型所占比例的分母仍为总数; 跟主流分型相差3个以上的等位基因分型的, 计为次要分型。

2 结 果

在调查的5903份绍兴诸暨市男性个体样本中, 经统计获得235种“ 镇/村/姓” 样本组合, 共检出1987种Y-STR单倍型, 2547种镇/村/姓/单倍型的组合。

1987种单倍型结合235种“ 镇/村/姓” 组合, 各单倍型对应的“ 镇/村/姓” 组合次数出现从1到18次不等, 其中有1686种单倍型对应1种镇-村-姓组合, 占84.9%, 单倍型对应1~2种镇-村-姓组合的占95.3%, 具体分布情况见表1

表1 1987种单倍型在235种不同镇/村/姓中的分布情况

在235种“ 镇/村/姓” 样本组合中, 各镇/村中同姓人员出现的主流分型大部分为1~2种(占90.7%); 有少部分的镇/村中同姓人员出现4~5种主流分型, 较为散在; 有极个别村的同姓人员单倍型各不相同, 无主流分型, 分布详见表2

表2 235种不同镇/村/姓中的主流单倍型的分布情况

在镇/村的同姓人员中出现次要分型的频率从0~1, 平均为18.22%。没有次要分型的有23个镇-村-姓, 其中19个镇-村-姓的主流分型为1种。相反的是, 有1个镇-村的11名陈姓人员, 单倍型各不相同, 无主流分型。

3 讨 论

本文调查样本的采集是在取样地的户籍、姓氏调查的基础上, 将人群按镇/村/姓进行组合分类, 共得到235种组合; 上述组合结合Y-STR分型进一步统计, 得到2547种镇/村/姓/单倍型组合, 共检出的1987种单倍型在235种“ 镇/村/姓” 组合中, 84.9%的单倍型对应1种镇-村-姓组合, 绝大部分的单倍型对应1~2种镇-村-姓, 表明本实验建立Y-STR数据库时, 每获得一种单倍型, 在数据库中查询时, 就会有近85%的可能性获得特定的镇/村/姓信息, 为侦查破案提供明确的方向与线索, 这也与文献[3]报道的结果相似。

按照理想状态, 在充分调查家族的基础上, 每个家族采取一个样本就能代表一个家族。在235种“ 镇/村/姓” 样本组合中, 表2中可见各村中同姓人员出现的主流分型大部分为1~2种(占90.7%), 表明根据本文提供的采集原则, 多数情况用较少的样本可以代表一个庞大的家族。但是调查数据表明一些村/姓也有不少次要分型, 这可能是因为存在过继、非婚生子、入赘、人口流动、婚配、迁移、改姓、聚居习惯、风俗文化等社会现实情况所至, 在调查过程中, 上述情况中尤其是非婚生子等涉及个人隐私的信息难以获得, 每个家族采取一个样本是远远不够的。各镇/村的同姓人员出现次要分型平均概率为18.22%, 这种情况的存在提示我们在数据库建库过程中, 尽管经过充分的家族调查, 但仍有近20%的风险采集不到主流分型的样本, 无法代表目标家族的Y-STR分型, 因此可考虑在原来采样的基础上增加采集比例的人员样本, 从而减少漏采的风险。

对一些镇/村/姓, 根据人口数量情况, 如果已采集了相当个体数量的样本, 且以某一单倍型占绝大多数的, 则无需再次大范围采样建库。如A镇A村有A姓人员22人, 同一种单倍型的有9人, 计为主流分型。其余12人的分型均与主流分型仅在1~2个基因座上相差1个重复单位数, 对于这样的村庄姓氏采样, 认为应该已足以代表该姓氏家族, 无需再大量采样; B镇B村B姓人员39人, 其中18个人为同一种分型, 计为主流分型, 有15人与该主流分型在1个基因座上相差1~2个重复单位, 另有5人相同分型, 计为主流分型2, 有1人与该主流分型在1个基因座上相差1个重复单位, 因此该村庄B姓人员也无需再大量采样。而对一些次要分型较多的镇/村/姓, 估计其单倍型的种类数相对较多, 仍存在一些未被采样的单倍型, 应考虑增多采样数。相反, 如C镇C村C姓人员24人, 其中13人为同一种单倍型, 有5人分型与该主流分型在1~2个基因座上相差1个重复单位, 还有5人为次要分型, 估计可能还存在一些其它的次要分型。为避免数据库漏掉一些仍较常出现的单倍型, 该村的陈姓人员应该继续采一些样本。极端的如D镇D村D姓人员11人, 出现11种各不相同的单倍型, 无主流分型, 出现这样的情况, 应再次调查大范围采样。

此外, 本文中之所以用3个等位基因的差异来区别主流和次要分型, 是因为根据Y-STR的突变率[4]估计, 在近几代之内同一家族的男性个体同时出现三个基因座突变的概率较低, 可以避免将突变误分为次要分型。

建立Y-STR数据库, 在目前建库经费相对紧张的情况下, 很关键的就是在家族调查的基础上有选择性的采样这一环节, 用尽可能少的样本代表尽可能多的家族, 充分发挥Y-STR数据库的效益。本文的采样方法有近80%的可能性采集到主流分型, 根据各地建库目标的要求高低, 对一些村/姓的单倍型分布情况进行调查, 分析其主流分型和次要分型的比例对下步采样具有指导意义。

The authors have declared that no competing interests exist.

参考文献
[1] 姜先华, 候光伟, 李军, . 应用DNA工作站进行批量血斑STR分型的研究[J]. 中国法医学杂志, 2007, 22(1): 1-4. [本文引用:1]
[2] 吴微微, 郑小婷, 潘立鹏, . 浙江汉族人群16个Y-STR基因座遗传多态性调查[J]. 刑事技术, 2005, 5: 11-17. [本文引用:1]
[3] 吴微微, 周安居, 郝宏蕾, . 用Y-STR单倍型推断男性个体来源的分析[J]. 中国法医学杂志, 2012, 27(4): 283-285. [本文引用:1]
[4] 吴微微, 郝宏蕾, 任文彦, . 中国汉族人群17个Y-STR基因座突变情况分析[J]. 中国法医学杂志, 2012, 27(6): 455-457. [本文引用:1]