作者简介:葛芸英,副主任法医师,硕士,研究方向为法医遗传学。 E-mail: 42983784@qq.com
人的身高是案件分析中对犯罪分子进行刻画的重要指标之一, 由环境因素及多个遗传基因共同决定。研究表明个体营养、青春期中的能量消耗、疾病、甚至社会心理因素[1]都能显著影响成年后能达到的最后身高; 同时许多研究也表明成人身高具有较强的家庭聚集效应, 其中同卵双生子间的身高相关性为0.9, 遗传率估计值为75%~90%[2, 3], 说明遗传因素对个体身高差异起主要作用。目前, 已发现的与身高相关的基因包括维生素D受体、PTH/PTHrP受体基因、雌激素及其受体基因、Y染色体上特异生长基因及GH1基因等。近年来的研究显示处于连锁不平衡的、相邻的SNPs位点倾向于以单体型的形式整体遗传给后代。单体型研究可减少关联研究中基因分型的工作量, 提供比单个SNP更为丰富的信息, 并且有助于对低频率变异(MAF< 10%)信息的利用。目前单体型的分析方法分成两种:一种是通过生物信息学间接推断, 另一种是通过实验直接分析[4]。通过信息学的方法间接推断单体型的方法分成两类, 一类是基于谱系的单体型推断方法; 一类是基于人群的单体型推断方法[5]。谱系推断是通过追溯染色体片段的传递来推断单体型状态, 为紧密连锁的SNPs提供真实的连锁相信息[6]。基于人群的单体型推断方法是基于统计理论进行演算, 从而推断出个体的单体型。而对于单体型的实验直接分析, 则是通过实验方法将体细胞二倍体中两个几乎相同的同源染色体分离开[7]。耶鲁大学的Kidd等人建立了等位位点特异性PCR方法(allele-specific PCR)[8], 该方法选择一个杂合SNP位点作为分离两条同源染色体的基础, 然后分别用3’ 端与SNP位点互补的特异引物进行PCR扩增, 每次仅扩增同源染色体中的一条DNA链, 由此将两条几乎相同的同源DNA分离; 再对分开的DNA链上SNP位点进行分析, 得到一条链上的单体型结果。另外基于探针杂交和荧光共振能量转移(FRET)的原理判断PCR扩增产物上的SNPs的解链温度曲线分析(melting curve analysis of hybridization probes)[9]方法和聚合酶克隆法(polymerase colony or polony)[10]也可以直接对单体型进行分析。本研究尝试采用等位位点特异性PCR和基于人群数据的单体型推断等两种方法分别构建单体型并探索其对身高的影响。
109例中国汉族已知身高的无关男性志愿者个体的血卡样本。
MagAttract DNA MiniM48 kit(QIAGEN, 德国)、Takara Tag HS酶(Takara, 中国)、内标LIZ-500(Life Technologies, 美国)、BioRobot M48(QIAGEN, 德国)、Eppendorf梯度PCR仪(QIAGEN, 德国)、AB 3130遗传分析仪(Life Technologies, 美国)等。
1.3.1 血斑DNA提取
参照MiniM48 kit操作步骤并作适当调整。
1.3.2 PCR扩增及检测分析
用Primer3软件设计引物GHP5(5’ -CTGACCCAGGAGTCCTCAGC-3’ )和GHP3(5’ CGCTTACCTGTAGCCATTGC-3’ )扩增599 bp的GH1基因启动子区域。采用降落PCR(touch down PCR)方法, 扩增反应采用50 μ L体系, 包含:5 μ L的10× PCR Buffer(Mg2+ Plus), 4 μ L的dNTP(10 mmol/L), 1.25 μ L的引物P1/P2(10 μ mol/L), 1μ L的Takara Tag HS 酶(5 U/μ L)和5 μ L的模板DNA。PCR扩增反应在Eppendorf梯度PCR仪上进行。
扩增条件:94℃ 5 min; 之后94℃ 30 s, 69℃~59℃ 30 s (前10个循环每循环降低退火温度1℃, 后25个循环退火温度为59℃), 72℃ 1 min; 72℃ 10 min。
1.3.3 PCR产物测序及序列分析
产物经琼脂糖电泳检测后进行双向测序。采用CHROMAS软件对原始电泳图进行分析, 其中存在SNP多态性位点用简并碱基代替。用DNAman对双向测序结果进行序列拼接, 获得完整序列。使用Vector NTI软件进行序列比对。
1.3.4 等位位点特异性PCR
基于测序结果, 选择包含2个或2个以上多态性位点的30个样品进行单体型分析。根据每个样品的SNP位点设计特异性引物对样品进行等位位点特异性PCR, PCR产物进行直接测序后分析其序列和单体型。结合第一步两条同源染色体测序的结果和其SNP的组成, 则可以推断出另外一条同源染色体的单体型。等位位点特异性PCR引物序列见表1。
![]() | 表 1 片段等位位点特异性PCR引物序列 Table 1 Primer information for allele-specific PCR |
1.3.5 连锁不平衡分析及单体型构建
使用 Haploview4.2软件对样品GH1基因启动子区域的测序结果进行连锁不平衡分析。应用R2.10.1软件运行Haplo.stats1.4.3程序包, 执行haplo.em模块来估计单体型频率(实质为分布、构成比)及每个个体单体型的可能性。
1.3.6 单因素分析及模型构建
应用Stata 11.2软件进行统计分析, 将各基因型以哑变量的形式引入多元线性回归模型, 对69个样品进行双侧检验, 若P< 0.05则认为差异有统计学意义。应用R2.14.1软件运行Haplo.stats 1.5.0程序包, 执行haplo.glm模块来构建单体型与身高的广义线性模型。
电泳结果显示, 引物GHP5/GHP3可以对样品的GH1基因启动子邻近区域进行特异性有效扩增, 片段大小为599 bp, 与理论预期值一致。对109个的样本GH1基因启动子邻近区域进行直接测序, 69个样本获得测序结果, 其余40个由于产物不纯导致测序失败。在69个测序成功的样本中, 34个样本含有2个或者2个以上的多态性位点(见表2), 9个样本含有一个多态性位点, 26个样本没有多态性位点。经与相关文献数据比较, GH1基因启动子邻近区域的SNP位点多态性频率在中国汉族人群和高加索人群间分布呈现明显不同, 例如中国汉族人群在- 308的G、-301的G、-75的A及-6的A等4个位点上的频率明显高于高加索人群中的比例, 提示该基因序列可能具有种群差异性。部分多态性位点的频率分析结果见表3。
![]() | 表 2 34个样本GH1基因启动子邻近区域扩增测序结果 Table 2 Sequencing results of GH1 gene proximal to promoter region from 34 samples |
![]() | 表 3 GH1基因启动子区多态性位点的频率分析结果 Table 3 Frequency of SNP in GH1 gene proximal to promoter region |
对含有2个及以上SNP位点的34个样品进行片段等位位点特异性PCR, 其中12个样品由于未找到其最佳PCR反应条件导致扩增效果不理想, 其余22个样品均获得特异性PCR产物。对产物进行测序获得样品同源染色体中一条链的碱基组成, 并依据第一步两条同源染色体测序的结果和其SNP的组成, 推断另外一条同源染色体的碱基组成, 获得样品的单体型信息。22个样品测序后的SNP序列及其在-278、-57、-6三个SNP位点上的单体型组成结果见表4。
![]() | 表 4 22个样品GH1基因启动子邻近区域等位位点特异性PCR测序及单体型分析结果 Table 4 Allele-specific PCR sequencing and haplotype results of GH1 gene proximal to promoter region from 22 samples |
Haploview4.2软件对69个样品GH1基因启动子邻近区域的直接测序结果进行连锁不平衡分析, 结果显示- 476、-364、-339、-168、-31, +16、+25、+59等8个位点不存在多态性。根据LD检验结果及相关选择标签SNP要求(MAF> 0.05, r2> 0.8, LDP检验< 0.05), 选择-278、-57、-6三个位点作为标签SNP位点, Haplo.stats1.4.3对69个样品中三个标签SNP位点进行单体型推断及各单体型分布频率统计, 结果显示在这三个标签SNP位点上, 共检测到7种单体型(GGA、GGG、GTA、TGA、TGG、TTA、TTG), 其中GTA是最常见的一种单体型, 占38.75%, 其次是TGA、TGT。对其中通过AS-PCR成功获得单体型的22个样品比较其两种方法(软件计算及AS-PCR)所获单体型结果, 发现两种方法所获得的单体型数据完全一致。
GH1基因是人生长激素的编码基因, 其启动子区具有高度单核苷酸多态性(single nucleotide poly-morphism, SNP)[11, 12, 13, 14]; Giordano M等报道GH1基因启动子多态性对成人身高的变异程度最低为3.3%[15]。黄晓萍等人采用直接测序及细胞克隆的方法对其启动子区域多态性以及部分单个SNP多态性与身高之间的关系进行了初步研究, 结果显示在汉族人群中-308和-57两处的SNP突变可能影响甚高[16]。
本研究分别采用了等位位点特异性PCR的直接测序方法以及基于人群的单体型的生物信息学推断方法对GH1基因启动子区域SNP特征及与身高的相关性进行研究。在实验初期的共109个样本中, 69个样本获得测序结果, 其余40个样本由于电泳图谱部分重叠而序列无法分析, 提示这些样品可能扩增产物不唯一而导致测序失败。对这40个样品采用分辨率更高的毛细管电泳方法进行PCR产物分析, 发现这些样品全部含有分子量不同的两个PCR产物。经查询International Hapmap Project 网站信息, 发现该基因在-364处存在片断缺失及-339、-31处存在单碱基缺失现象, 故通过常规Sanger测序法无法获得其序列。在后续研究中, 将采用PCR产物克隆测序的方法进一步对这些样品进行SNP多态性及单体型信息分析。
通过查阅相关文献和网站资料, 本研究中首次发现了3个SNP位点(-261、-250、+20), 这3个位点均未在汉族人群及其他人群中被发现报道。虽然间接推断方法能够非常方便地对人类单体型进行分析, 但有研究表明其错误率在19%~48%之间[5], 准确性还有待进一步提高; 但在本研究中通过对22个包含2个或2个以上SNP位点的样本进行等位位点特异性PCR获得的单体型与运用软件haplo. stats构建的单体型结果进行比较, 22个样本用两种方法获得的单体型结果完全一致, 该结果提示基于普通统计理论进行演算推断个体单体型是一种比较准确可行的方法, 可以在后续研究中单独使用, 可不再进行复杂费时的等位位点特异性PCR操作, 可以节约大量的实验时间和成本。
尽管在研究中使用的样本量有限, 但现有结果表明GH1基因启动子区域的序列与身高存在一定的关系。如对于- 308和-301两个位点来说, 携带GT的较携带GG的身高更矮; 对于-278、-57、-6三个标签SNP位点, 以最常见的单体型GTA为参照, TTA、GGG、TTG携带者的身高更矮(P< 0.05)。
总之, 本研究分析了中国部分汉族人群GH1基因启动子邻近区序列, 发现了11个SNP位点, 其中3个位点系首次在人群中发现, 找到3个标签SNP, 建立了单体型分析方法, 为今后单体型与调控人体身高的关联性研究奠定了基础。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|