GAMarker基因分型专家系统的设计与实现
郭甜利1, 张涛1, 白雪2, 李明1, 金川1, 陈力1
1.公安部第一研究所,北京 100048
2.公安部物证鉴定中心,北京 100038

第一作者简介:郭甜利,女,安徽宿州人,硕士,助理工程师,研究方向为法医DNA。E-mail: guotianli1@163.com

摘要

目的 DNA基因分型软件是DNA检测技术体系不可缺少的一环,为拓展GA118系列遗传分析仪器的应用,须研制一套DNA基因分型专家系统,以满足法庭科学DNA检验鉴定工作的需要。方法 基于已掌握的DNA片段定长和基因分型数据处理解决方法及相关核心算法,使用JAVA语言和MYSQL数据库,利用Maven进行项目管理,经对GA118系列、ABI系列数据文件解析和数据分析,研发了专家系统GAMarker。结果 该系统实现了样本和数据呈现、样本分析要素质量评估、分析方法管理、分型结果展示和人工核查、电泳数据审查、生成分析报告、系统安全等功能,并可分析8色荧光数据。结论 GAMarker可进行软件设定、数据分析与比对、图谱查看与编辑,是一套完整的DNA片段分析流程和直观的数据审核工具,可代替国外产品、有效支撑国产遗传分析仪相关系列型号的数据分析,能满足侦破案件、DNA数据库建设的需要。

关键词: DNA; GAMarker; 电泳图谱; 基因分型; 8色荧光
中图分类号:DF795.2 文献标志码:A 文章编号:1008-3650(2021)05-0449-08
GAMarker, a Genotyping Expert System: Design and Implementation
GUO Tianli1, ZHANG Tao1, BAI Xue2, LI Ming1, JIN Chuan1, CHEN Li1
1. The First Research Institute of Ministry of Public Security, Beijing 100048, China
2. Institute of Forensic Science, Ministry of Public Security, Beijing 100038, China
Abstract

Objective DNA genotyping software is indispensable for DNA detection technology. In order to expand the application of GA118 series of genetic analysis instruments, a DNA genotyping expert system is as thus to develop for the requirements of forensic DNA testing and identification.Methods In view of the knowledge about DNA fragment lengths and genotyping data processing solutions plus the related core algorithms, Java was selected as the developing language and MySQL as the supporting database, having them undergone with Maven for project management. Through completion of the analysis with both GA118 and ABI series data files, the DNA genotyping expert system, GAMarker, was therewith developed finally.Results There are functions having been fulfilled with the expert system: sample and data presentation, quality evaluation for sample analytic element, management about analysis method, genotyping result presentation and manual verification, electrophoretic data review, generation of analysis report, system security among others. The system can realize the analysis of data from 8-color fluorescence.Conclusions GAMarker can be used for software setting, data analysis and comparison, plot viewing and editing. It is a complete set of intuitive data-auditing tool about DNA fragment analyzing process, capable of replacing the foreign products and effectively supporting the data analysis into series of domestic genetic analyzers so that it could meet the requirements for legal medical examinations and DNA database construction.

Key words: DNA; GAMarker; electrophoretogram; genotyping; 8-color fluorescence

DNA分析技术正愈益准确、微量、快速、自动化及具备数据库可应用性[1], 几乎能检验任何检材。全方位研究开发和利用DNA所揭示的生物信息, 使DNA分析技术成为一线民警侦破案件的一种有效手段[2]。不仅如此, DNA技术还在亲缘追踪、大型灾难事故调查、无名尸源[3]认定等方面发挥重要作用。

短串联重复序列(STR)是现在法医DNA分析中最常用的一类遗传标记[4]。它具有分布广泛、易于扩增、灵敏度高、片段长度差异适度、各个基因座扩增条件相似、分析方法简便等优点[5], 有利于实现DNA分型的标准化和自动化。通过对STR基因座复合扩增、PCR扩增产物的分离与检测、荧光标记STR基因座的分型[6], 相关刑事技术专家就可得到最终的分析结果[7]。然而, 该分析过程对仪器设备和软件均有较高要求。仪器设备方面, 目前我国自主研发的GA118系列遗传分析仪器可用于法医DNA检测、个体识别及亲子鉴定, 是全自动多通道的新一代基因分析平台[8]。该系列遗传分析仪采用单波长固态长寿光纤分束激光器作为激发光源, 基于激光诱导-荧光检测STR复合扩增技术, 可实现STR片段分析、测序及其他功用; 软件方面, 目前DNA实验室常用的是来自国外的GeneMapper软件, 该软件主要功能包括扩增片段长度多态性、杂合性缺失、微卫星和SNP基因分型等分析[9], 迄今尚不支持8色分析及GA118系列数据分析。在完成GA118系列、ABI系列数据文件解析和数据分析的基础上, 研发了快速、友好, 且支持8色荧光体系分析的GAMarker基因分型专家系统。

1 系统设计
1.1 系统概述

GAMarker基因分型专家系统是完整的DNA基因分型流程和直观的数据审核工具, 从算法设计到代码实现, 均为完全自主研发。软件基本版本为英文版, 并搭配汉化中文包, 能满足侦破案件、数据库建设和亲子鉴定等个体识别数据分析的需要。

1.2 分析流程

通过GA118系列遗传分析仪分析DNA检材, 然后利用采集软件采集数据。

1)将数据导入GAMarker基因分型专家系统。导入后可查看数据的详细信息。

2)设置分析参数。包括内标、分析片段组、分析方法、样本类别等。

3)分析。分析过程中实现对样本的质量控制, 生成分析概要, 并绘制分型图谱。

4)查看质控结果和分型图谱。也可在图谱界面对分型结果进行编辑。

5)生成报告。

1.3 数据库设计

GAMarker中有多个数据对象, 存在多种实体、属性和关系。基于此, 需要设计用户表、分析表、分析结果表、bin表、panel表、markers表等。该系统在MYSQL数据库中, 共设计了48张表格以提供数据支持。如图1所示, 以Markers表的E-R图为例, 表内字段包括id, panel_id(panel序列号), name(marker名称), repeats(重复片段长度), color(染料颜色), dye_index(染料id), size_range_min(范围bp最小值), size_range_max(范围bp最大值), allele_ladder(ladder中的等位基因), comments(备注), marker_type(marker类型), stutter_percentage(stutter比例), control_alleles(标准样中的等位基因), y_marker(是否为y位点), internal_gq(是否是内部质控GQ), create_date(创建时间), last_modified(最后一次修改时间)等17项参数。

图1 Markers表的E-R图Fig.1 E-R chart of essential parameters of Markers

1.4 JAVA代码设计

本系统使用Java语言开发, 涉及多项插件技术。

1)SWT, 标准工具箱技术;

2)JFace, 图形操作封装;

3)RCP, 简易化桌面应用开发;

4)OSGi, 实现模块间的真正“ 解耦” “ 分离” ;

5)Nebula, 美化控件;

6)SWTChart, 满足分型图谱绘制需要;

7)Tycho, 简化配置。

配置以上插件后开发代码。部分代码结构如图2。

图2 代码结构Fig.2 Code structure

1.5 Maven管理与软件封装

GAMarker是一个多模块项目, 包含如标准物分析、样本分析、图谱分析与交互等, 多个功能需并行开发。考虑到Maven的自动化管理与部署和依赖管理的特性及其能提供高度可控的方法, 开发该系统时使用了Maven。软件开发完毕后, 在Eclipse中对其封装。使用者打开可执行文件即可运行GAMarker。

2 功能设计

GAMarker基因分型专家系统包含七个子系统(图3), 分别是样本要素质量评估系统、样本和数据呈现系统、分析方法管理系统、分型结果呈现和人工核查系统、电泳数据审查系统、分析报告生成系统和系统安全系统。七大子系统共同作用, 维护整个专家系统的运转。

图3 功能概要图Fig.3 Summary of seven functional modules

2.1 样本要素质量评估系统

系统会对数据的分析要素进行初步判断。比如判断样本中是否包含等位基因分型标准物, 如果不具备条件, 将停止分析并给出对应的提示。其次, 判断有无内标、分析方法; 如果没有, 则无法分析。

基于此, 质评系统设置了五个子系统。

1)分析要素检查, 即检查那些可能阻止分析或引起异常结果的因素。

2)内标质量评估, 评估每个样品的内标质量。在算法上, 内标决定了分子量内标标准曲线。

3)等位基因分型标准物质量评估。在后续内置算法中, 根据标准物校正panel、bins, 以此消除不同批次的电泳误差。

4)基因座水平质量评估。在分析完成后, 对每个基因座的分型峰进行判读, 以便于查看与人工质控。

5)样本质量评估。样本质量根据每个片段、每个颜色通道、每个基因座的质量来综合研判, 具体如图4。

图4 样本质量评估Fig.4 Sample quality assessment

2.2 样本和数据呈现系统

实现了查看样本数据基本信息、原始数据以及多个样本呈现的功能。1)查看的基本信息包括了样本信息, 错误信息, 上次使用的分析方法设置, 运行信息和数据采集的设置。2)查看样本原始数据。表格查看和表格设置决定样品和基因型的表格在显示和导出时的内容(表格的列)。查看原始数据信息图谱如图5所示。

图5 原始数据信息Fig.5 Raw data information

2.3 分析方法管理系统

分析方法管理系统负责对分析方法相关的参数进行设置和管理, 并用该系统定义样品数据分析时的峰检测、片段大小判定、基因分型和质量评估参数。在开始分析数据之前, 由软件获取试剂盒诸如基因座的片段范围、 染料组、等位基因大小、滑移峰比率等详细信息, 即与之对应的Panel, Bin和Stutter文件。

管理Panel。Panel是所有基因座的组合, 进行基因分型时, 需设定样品文件对应的Panel。Panel管理的功能主要是对Panel查看和编辑, 导入导出。系统初始化时, GAMarker已内置常用试剂盒文件及Panel、Bins。如图6所示, 在该文件的可视化图表下, 可以查看基因座的物理Bin(灰色)和虚拟Bin(淡粉色), 然后选择或者编辑滑移峰比率和距离。

图6 查看BinsFig.6 Viewing Bins

相关参数还包括分子量标准(内标), 文件提供一组以碱基对为单位的不同长度片段及其标注的荧光信息。在进行样品峰的检测和片段大小判读时, 系统计算这些内标片段的文件供给数值与电泳结果的观察值之间的相似程度值, 该值在算法上通过分子量内标标准曲线实现帧与bp坐标值的换算。

2.4 分型结果呈现和人工核查系统

算法上, 电泳对荧光颜色不同的DNA片段的峰进行长度检测, 并对应不同的通道, DNA片段与内标比较后确定长度。最后与以同样方式确定长度的标准物比较, 得到未知样本的PCR产物片段分型[10]。查看标准物的电泳图谱, 其结果如图7。

图7 标准物的电泳图谱Fig.7 Electrophoretogram of ladder

分型过程中, 需检查分型标准物的数据质量。当标准物达到要求值, 显示绿色的“ 通过” 标识, 此时可直接对样本数据分型, 以便核查评价。如标准物未达到要求, 则无法校正不同批次的电泳结果, 为保证实验有效性, 不予分析。

根据分析流程, GAMarker具有解释各种不同类型样本的功能。为避免在人工核查中, 核查所有的未知样本, 软件设定了“ 通过” “ 不通过” “ 注意” 三种图标来标识分析结果与“ 设定标准” 的差异性, 只核查那些不符合“ 设定标准” 的样本, 并可呈现分型结果以及人工核查的界面交互。图8为重命名杂峰标签。

图8 重命名杂峰标签Fig.8 Renaming the artifact label

在进行添加、删除、重命名等位基因或杂峰标签后, 需录入修改的原因, 以便于系统跟踪、审查。此外, GAMarker还提供修改基因型质量(GQ)和综合基因型质量(CGQ)的功能, 其结果也记录进日志, 并可在进程质量面板查看(图9)。

图9 重命名等位基因标签Fig.9 Route for renaming allele label

2.5 电泳数据审查系统

该审查系统提供多种数据核查工具, 可查看手工编辑以及覆盖的样本分型, 并以表格的形式显示CGQ覆盖过的样本和编辑过的样本。

审查系统的另一组件为标签编辑器, 该组件可查看基因型表格中等位基因编辑内容(图10), 包括等位基因更改编辑原因、基因座编辑内容、基因座编辑的标签等。

图10 标签编辑查看器Fig.10 Label-editing viewer

2.6 分析报告生成系统

GAMarker分析报告生成系统负责报告定义、报告生成以及导出固定格式的报告、导出单个表格和导出联合表格, 如图11。

图11 导出报告Fig.11 Exporting report

2.7 系统安全系统

系统安全是GAMarker专家分型系统的重要组成部分, 负责系统用户权限以及操作安全。包括数据的安全、分析方法的安全以及分析报告的安全等。为保障系统安全, 用户的操作必须经过授权且只能进行权限之内的操作。GAMarker主要通过用户账号、分组管理、审查追踪、密码安全和系统日志等设置, 确保整个系统的安全和可追溯。

3 8色荧光数据分析

更少检材、更多正确的遗传信息是当前公安机关的办案需要。检测更多的STR基因座成为解决这一需求的关键。目前, 公安部物证鉴定中心已经成功建立8色荧光复合扩增体系。公安部第一研究所研制的与GA118-24B配套的GACS采集软件也已实现8色荧光数据采集[11]

实现了8色扩增和采集, 8色分析就成为完善整个8色检测体系的重要一环。染料颜色方面, 除蓝、绿、黄(黑)、红、紫、橙外, GAMarker在图谱分析中增加橙红、黄绿等以显示8色通道。以某8色试剂盒(测试用)为例, GAMarker将其采集到的数据结果进行数据解析和电泳分析后, 显示出8色电泳图谱。为保证图谱及基因标签有效显示, GAMarker系统预设了在界面窗口一次性显示8栏图谱时提示“ 空间不足、标签信息不完备” 的防范机制(8色谱图可滑动鼠标滚动显示)。8色电泳图谱实例如图12。

图12 8色电泳图谱 (预防机制下蓝、绿、黄〔黑〕、红图谱和橙、紫、橙红、黄绿图谱的上下合并图)Fig.12 Eight color demonstration with electrophoresis (the preventive mechanism-guided electrophoretograms combined from blue, green, yellow (black), red and/or orange, purple, orangy red and yellowy green spectra)

4 技术指标

GAMarker可支持包括ABI3100、ABI3130、ABI3500在内的多种机型输出的数据文件, 支持5色、6色以及8色荧光体系的数据文件分析。

以D3S1358基因座为例, 将GAMarker与GeneMapperIDX1.6进行基因分型结果平行比较。D3S1358位于第3号染色体, 属于复合STR系统, 核心序列是AGAN, 其中N为T或者C; 现已检出12个等位基因, 其片段大小范围为103~147 bp。

使用样本为9947A的女性标准DNA, 取1 μL扩增产物与1.6 μL内标物和80 μL去离子甲酰胺混合, 混合后取9 μL接受95 ℃ 5 min、冰浴3 min处理。用GA118-24B遗传分析仪进行毛细管电泳及数据收集。将所得数据分别以GAMarker和GeneMapper IDX1.6分析, 相关计算结果如表1

由两组数据对比可知, 对同一样本的同一基因座, GAMarker和GeneMapper IDX1.6的算法可识别出一致的峰数目, 能计算出一致的片段长度、等位基因分型; 在给出的数据项中, 峰高值、峰顶点数据帧位置和GeneMapper IDX1.6或有少许差异, 而这与采用的具体算法有一定差异有关, 并不影响分型判断。

表1 GAMarker和GeneMapper IDX1.6中D3S1358的峰数据比对 Table 1 Comparison between the peak data of D3S1358 analyzed with GAMarker and/or GeneMapper IDX1.6
5 结论

本文详细介绍了法医DNA数据分析软件的设计与实现。通过MYSQL的数据库支撑和JAVA语言开发, 最终研发出GAMarker专家分型系统。该系统包含七大子系统, 通过质控、分型、编辑、安全等功能协同作业, 能配合相应的检测平台、数据采集软件使用, 是一套完整的DNA片段分析流程和直观的数据审核工具。

与GeneMapper IDX1.6相比, GAMarker拥有支持8色荧光数据分析的能力, 在拓展8色试剂体系应用上优势明显。另外, GAMarker的研制为DNA片段定长、基因分型数据处理以及谱峰识别算法的改进也提供了设计基础。

该分型系统现已完成研发、封装和相关技术指标的测试。基因分型专家系统GAMarker投入使用后, 将有效支撑GA118系列DNA遗传分析仪的数据分析, 满足侦破案件、DNA数据库建设需要, 对DNA鉴定工作有重要价值和帮助作用。

参考文献
[1] 李阳, 高林林, 王之钦. 违法犯罪人员DNA建库中检测板的四种复核方法[J]. 刑事技术, 2019, 44(6): 548-550.
(LI Yang, GAO Linlin, WANG Zhiqin. Four methods to check the position of 96-well plate for sampling in constructing DNA database of criminals[J]. Forensic Science and Technology, 2019, 44(6): 548-550. ) [本文引用:1]
[2] 夏雷, 范京来, 富渭鑫, . 215例枪支上接触DNA检材的检验分析[J]. 刑事技术, 2020, 45(2): 204-206.
(XIA Lei, FAN Jinglai, FU Weixin, et al. Analysis of 215 touch DNA samples extracted from guns[J]. Forensic Science and Technology, 2020, 45(2): 204-206. ) [本文引用:1]
[3] 杨静波, 刘龙, 王江峰. 应用mtDNA序列分析技术鉴定嗜尸性蝇类种属的研究进展[J]. 刑事技术, 2019, 44(1): 60-65.
(YANG Jingbo, LIU Long, WANG Jiangfeng. Research progress about mtDNA sequencing to identify the species of sarcosaphagous flies[J]. Forensic Science and Technology, 2019, 44(1): 60-65. ) [本文引用:1]
[4] 布尔特尔. 法医DNA分型: STR遗传标记的生物学、方法学及遗传学[M]. 北京: 科学出版社, 2007.
(BUTLER J M. Forensic DNA typing: biology, technology, and genetics of STR markers [M]. Beijing: Science Press, 2007. ) [本文引用:1]
[5] 郑秀芬. 法医DNA分析[M]. 北京: 中国人民公安大学出版社, 2003.
(ZHENG Xiufen. Forensic DNA analysis [M]. Beijing: Chinese People's Public Security University Press, 2003. ) [本文引用:1]
[6] 郑秀芬, 叶健, 吉冈尚文, . PEP-PCR法及其在法医学中应用的可行性研究[J]. 中国法医学杂志, 2000, 15(1): 18-21.
(ZHENG Xiufen, YE Jian, YOSHIOKA Nafumi, et al. PEP-PCR method and study of reliability of its application in forensic science[J]. Chinese Journal of Forensic Medicine, 2000, 15(1): 18-21. ) [本文引用:1]
[7] 王梓齐, 武波, 陈曼, . 法医学二代测序STR分型准确度与测序深度的关联性评估[J]. 刑事技术, 2021, 46(1): 8-15.
(WANG Ziqi, WU Bo, CHEN Man, et al. Correlativity between sequencing depth of next generation sequencing and its resul-ting accuracy for forensic STR genotyping[J]. Forensic Science and Technology, 2021, 46(1): 8-15. ) [本文引用:1]
[8] 张涛, 孙丹, 虞之龙, . 法医DNA检测平台研究与应用新进展[J]. 警察技术, 2015(6): 4-7.
(ZHANG Tao, SUN Dan, YU Zhilong, et al. Research and application of forensic DNA detection platform[J]. Police Technology, 2015(6): 4-7. ) [本文引用:1]
[9] 王振兴. 基于基因检测比对的实验室信息管理系统设计研究[D]. 上海: 复旦大学, 2012.
(WANG Zhenxing. Design of laboratory information mana-gement system based on gene detection and comparison[D]. Shanghai: Fudan University, 2012. ) [本文引用:1]
[10] 贾二惠, 张涛, 李彬, . 一种用于LIF&CE有效分离DNA片段的定量分析方法[J]. 警察技术, 2012(5): 33-35.
(JIA Erhui, ZHANG Tao, LI Bin, et al. A quantitative analysis method for effective separation of DNA fragments by LIF and CE[J]. Police Technology, 2012(5): 33-35. ) [本文引用:1]
[11] 白雪, 姚伊人, 张涛, . 八色荧光复合扩增体系构建初探[J]. 中国法医学杂志, 2020, 35(6): 38-42.
(BAI Xue, YAO Yiren, ZHANG Tao, et al. Construction of eight-dye fluorescence multiplex amplification system[J]. Chinese Journal of Forensic Medicine, 2020, 35(6): 38-42. ) [本文引用:1]