法庭科学人为判断方法的科学有效性与方法确认标准研究

引用本文

花锋, 翟晚枫, 张宁. 法庭科学人为判断方法的科学有效性与方法确认标准研究[J].刑事技术, 2021,46(5):441-448
HUA Feng, ZHAI Wanfeng, ZHANG Ning. Perception into Forensic Human-based Judgment/Decision about Its Scientific Validity and Validation Standard[J]. Forensic Science and Technology,2021,46(5): 441-448 复制到剪切板

Doi: 10.16467/j.1008-3650.2021.0077
Permissions

《刑事技术》编辑部

法庭科学人为判断方法的科学有效性与方法确认标准研究

花锋, 翟晚枫, 张宁

公安部物证鉴定中心,北京 100038

第一作者简介：花锋,北京人,硕士,主任法医师,研究方向为法庭科学实验室管理与标准化。E-mail: huafeng1967@sina.cn

收稿日期: 2021-04-22 修回日期: 2021-03-18

基金资助: 公安部理论及软科学研究计划重点项目（2017LLYJWZZX006）

摘要

近年来,以人的判断为主的鉴定方法的科学有效性备受质疑,这包括方法的重复性、复现性与错误率等没有得到量化的评价,产生的鉴定意见主观性强,准确性难以评判等。但是,随着一些国际组织和国家政府加大研发投入,激发了科学家们的研究热情,使这些问题得到了不同程度的解答。本文通过对相关研究成果的归纳分析,反映出各国在人为判断方法确认的量化评价指标和程序要求方面日趋严谨,将法庭科学与统计学、信息技术等融合,开展跨学科的新方法研发,成为主观鉴定方法转换为客观方法的方向,但是,进行量化评价的实验研究依然处于量变的积累期,尚未成熟。对我国而言,追赶的关键在于,尽快提出自己的人为判断方法确认标准,为评估现有方法和开发新方法奠定基础;组建跨学科的专家团队,加大与量化评价相关的实验研究和计算机方法研发力度。

关键词: 法庭科学; 人为判断方法; 科学有效性; 方法确认

中图分类号:DF794 文献标志码:A 文章编号:1008-3650(2021)05-0441-08

Perception into Forensic Human-based Judgment/Decision about Its Scientific Validity and Validation Standard

HUA Feng, ZHAI Wanfeng, ZHANG Ning

Institute of Forensic Science, Ministry of Public Security, Beijing 100038, China

Abstract

Forensic human-based judgment/decision exists on some occasions, often causing into being questioned about its scientific validity because of the difficulty to quantitatively evaluate its repeatability, reproducibility, accuracy and error rate due to the subjectivity of the generated identification opinions. However, some international organizations and national governments have been increasing their R&D (research and development) investment on such issues that forensic scientists are aroused of enthusiasm to carry out relevant researches. Accordingly, some relative problems have gotten solutions to varying degrees. Through summarization and analysis into pertinent researches and discoveries, a trend was here elucidated that human-based judgment/decision is becoming more rigorous with the ever-quantitative evaluation indicators and procedural requirements in various countries. The integration of statistics, information technology and the related others into forensic science has resulted in new interdisciplinary approaches being developed, leading a direction of transforming subjective judgment to objective identification. Nevertheless, the experimental exploration of quantitative evaluation is still on the way to accumulate, not mature. For China, the characteristic validation standard should be put forward onto human-based judgment/decision as soon as possible so that the foundation can be laid for evaluating the existing methods and developing new ones. Moreover, an interdisciplinary expert team should be organized, and experimental researches are to strengthen about the concerned quantitative evaluation along with development of computer accesses.

Key words: forensic science; human-based judgment/decision; scientific validity; method validation

法庭科学人为判断方法是以人为主体进行观察、分析、比较和判断活动的方法, 也经常被称为特征比对、模式比较或主观方法等。伴随着法治社会对法庭科学技术要求的日益提高, 不能满足严格的科学标准的人为判断方法备受质疑。事实也证明, 应用此类技术方法导致了部分鉴定意见的缺陷甚至错误。如：由于应用并不完善的显微毛发比对技术, 美国联邦调查局承认在268个使用了FBI毛发鉴定部门所提供的证据的审判案件中, 逾95%的案件中发现了错误的或有利于检方的证词^[1]。即使是被普遍认为是“ 黄金标准” 的DNA鉴定活动, 在混合斑拆分解释上也会产生错误。2015年, 美国华盛顿邮报报道, 华盛顿特区犯罪实验室因DNA混合分型解释问题被暂停工作^[2]。基于这一现实, 如何证明此类鉴定方法的科学有效性以及确保鉴定意见的准确性和可靠性成为急需解答的问题。

1 对方法科学性的质疑

虽然, 判定科学的标准并未形成统一的认识, 但从狭义的自然科学层面来讲, 确定性和可重复至关重要。正如雅斯贝斯指出的, 科学具有三个必不可缺的特点, 即认识方法, 可靠确凿和普遍有效^[3]。可靠确凿要求能够了解研究对象的不确定性、可能性或不可能性; 普遍有效要求对研究对象的解释能够普遍领悟和实践应用。由此可见, 自然科学需要通过一定的方法, 如实验和经验总结, 明确研究对象的确定性和有效性。然而, 法庭科学领域中人为判断方法未能很好地回答这些问题, 缺乏可用于评判的量化数据, 导致鉴定意见可信程度降低。

其实, 早在上世纪30年代就有专家指出法庭科学部分专业的鉴定方法需要改进, 但直到2009年美国国家研究委员会发布了《加强美国法庭科学之路》的报告后, 这一问题才逐渐被重视起来^[4]。在该报告中, 专家们通过对错案以及研究文献的深入调查分析, 指出“ 简单的事实是, 法庭科学证据的解释并不总是基于科学研究来确定其有效性。这是个严重的问题。虽然（一些指纹鉴定的研究）部分学科已经进行了研究, 但是在确认学科的科学基础和方法有效性方面, 明显缺乏同行评议和发表的研究。” 在论述有关个体识别和种类推断的鉴定意见时, 更是得出了一个看似夸大了的结论“ 除了核DNA分析, 没有一种法庭科学方法被严格证明有能力始终如一、高度确定地证明证据与特定个人或来源之间的联系” ^[5]。

之所以产生这些质疑, 其主要原因在于对鉴定方法的科学有效性评价不充分, 鉴定意见不确定与不准确。法庭科学领域中人为判断方法多是从实践中总结和发展起来的, 缺乏充分的科学研究以及现代科学方法的严格论证和缜密的推理, 专家经验判断在鉴定活动中起着关键作用, 由此产出的鉴定意见往往是文字描述性的, 意见不连续, 跳跃性大, 缺乏量化的衡量, 容易人为夸大或缩小鉴定意见证明力, 鉴定人之间或者自身的先后意见不时也会出现不一致情况, 而这些差异又不能得到很好的解释或者量化的评估, 反映出这些方法不具备良好的科学特征, 受到质疑也就不足为奇了。

2 方法确认标准研究

要消除对人为判断方法的质疑, 就需要按照一定的标准对有关方法进行评价, 研究和确认方法的有效性和可靠性, 鉴定方法既要能够有效地达到研发的预期目的, 回答有效性和确定性问题, 又要能够可靠地产出正确一致的结果, 回答准确性和可靠性问题。这意味着要对现有和希望研发的鉴定方法进行严谨的方法确认, 而首要任务就是制定和完善人为判断方法的确认标准, 包括确认指标和程序。

其实, 人为判断方法的确认要求在一些领域已经提出多年, 如：美国指纹分析、研究和技术工作组（Scientific Working Group on Friction Ridge Analysis, Study and Technology, SWGFSAT）在成立不久就于2001年起草了《研究与技术确认》草案, 提出了指纹分析方法的确认要求, 在确认阶段上提出了文献研究、标准样品分析、一致性和复现性分析、多种环境下的样品分析四阶段, 在确认程序方面, 要求现有方法的确认只需要进行实验室内部确认, 而新方法需要进行内外部确认^[6]。然而, 多数领域并未提出方法确认的明确要求, 即使是上述指纹分析领域的确认要求也比较笼统, 缺乏可操作性, 反映出传统的惯性思维依然左右着鉴定活动。2009年美国的报告成为分水岭, 西方多国加强了人为判断方法的确认工作研究, 相继出台了一系列规范性文件, 大大提高了此类方法确认的科学水平。

2.1 美国方法确认标准研究

2009年后美国一些以人为判断方法为主的工作组相继颁布了各自的新标准, 对方法确认要求进行了完善。2012年, 美国火器与工具痕迹工作组（Scientific Working Group for Firearms and Toolmarks, SWGGUN）修订了质量保证指南, 要求任何技术和程序应在用于个案工作之前进行确认, 以确保准确性和复现性^[7], 明确提出了方法确认中要评价方法的准确性和复现性。同年, SWGFAST发布《指纹鉴定方法的确认及评价标准》, 修订了原有的要求, 规定方法确认过程分四个阶段：理论评估、在理想样本上进行性能评估、在实际样本上进行性能评估和在实地应用环境中进行技术评估^[8], 这些规定适用于定量、定性和分类方法。除了程序性要求, 该标准较之过去提出了更加细致的确认指标, 要求考虑的相关因素（可选择）包括：准确性、选择性、检测限、复现性、稳健性、总成本和边际成本、安全性、易用性、可用性、操作条件和风险, 确认定量方法时必须估计精度和不确定度, 必须设计方法来测量所考虑的因素并设定阈值, 以确定技术验证是否成功。反映出确认指标趋于量化和严格。

2016年, 美国总统科学与技术顾问委员会(Presi-dent's Council of Advisors on Science and Technology, PCAST) 通过对2 000多篇法庭科学文献的回顾, 以及对法庭科学家和法律界利益相关者的采访, 针对特征比对类方法提出了两种类型的科学有效性判断标准：基础有效性和应用有效性。基础有效性要求通过实验研究, 评估该方法的重复性、复现性和准确性, 并证明适合预期应用。因此, 基本有效性意味着一种方法原理上是可靠的。应用有效性是指该方法在实践中得到了可靠的应用, 即专家“ 可靠地将原理和方法应用于案件事实” ^[9]。PCAST在此基础上, 还进一步指出确认科学有效性的要点。概括来讲, 基础有效性需要验证方法的可重复性、可复现性和对准确度的有效估计, 以表明该方法适合预期应用。对于主观特征比对类方法, 要求必须将该方法作为鉴定人员头脑中的一个“ 黑箱” 来评估, 因此, 有效性和可信度的评估必须基于“ 黑箱研究” , 并确定错误率。报告还严厉地指出, 如果没有对准确度的适当估计, 鉴定人员关于两个样本相似甚至无法区分的陈述在科学上毫无意义。

针对应用有效性, 必须满足两个测试：1）鉴定人员必须被证明能够可靠地应用该方法, 而且必须实际这样做。特别是对于主观方法, 需要通过测试来衡量专家得出正确答案的频率。同时需要将案件中实际使用的程序、获得的结果和实验室记录提供给其他人进行科学审查。2）鉴定意见必须是科学有效的。专家应报告基础有效性研究中确定的方法的总体假阳性率和灵敏度, 并应证明基础研究中使用的样本与案件事实相关。专家应在实验依据内给出意见, 且不应超出统计方法适用的范围。这一标准从理论和实践出发, 既要求理论上严谨的实验验证, 又要求保证方法在实际应用中的效能。提出的重复性、复现性、准确性、错误率以及“ 黑箱研究” 等衡量标准和研究方法, 对传统的形态特征比对类方法确认既是挑战也是方向。

2014年, 美国法庭科学领域全体委员会（Organi-zation of Scientific Area Committees, OSAC）成立。为确保批准注册的技术标准能够准确可靠地回答一个具体而明确界定的法庭科学问题, 清晰阐述技术标准的能力和局限性, 减少歧义, OSAC提出了技术方法确认的“ 技术价值” （technical merit）标准。按照美国法庭科学国家委员会（National Commission on Forensic Science, NCFS）的定义, “ 技术价值” 是指在技术的准确性、能力和局限性方面, 为特定目的奠定基础的研究和数据^[10]。经不断完善, 现行的2018版OSAC注册方法技术价值工作表中列出了12个方面的具体评价要求, 包括：目的、范围、术语、过程或程序的清晰和详细程度、测量不确定度、错误率、质量保证、确认过程、法律资源委员会关注点、人为因素委员会关注点、质量基础设施委员会关注点以及统计工作组关注点^[11]。其中值得一提的是, 与PCAST提出的基础有效性标准相对应, OSAC技术价值工作表中提出了错误率指标, 其评估的具体要求包括：

1）如果运用标准的产出是鉴定意见（例如, 阳性或阴性）, 该标准是否包括评估该结果的错误率的过程?如果没有, 它是否会引导您使用其他标准或文档来获取此信息?

2）评估错误率的方法是否也包括评估其不确定性的方法?

3）是否有示例来说明获得错误率和相关不确定性所需的计算过程?

4）标准是否包括如何描述用于评估错误率的群体和样本的指南?如果给出了任何特定群体的结果, 这些结果是否得到了很好的描述或刻画, 是否讨论了使用其他群体可能产生的影响?

2017年, NCFS在其成果总结报告《反思-展望未来》中给出了更加明确的工作建议：首先, 司法部部长应鼓励美国国家标准及技术研究所（National Institute of Standards and Technology, NIST）建立一个内部实体, 以评估法庭科学领域中使用的检测方法和实践方案的技术价值。其次, NIST的评估结果应该公开。第三, 对于经由NIST按照技术价值确立的法庭科学检测方法和实践方案, OSAC领导层应共享其协商一致的文件标准^[12]。可见, 美国不仅确立了方法确认的OSAC技术价值标准, 提出了详细的具有可操作性的评估指标, 同时还要求开展独立的第三方评价活动, 特别是鼓励权威的研究机构NIST成立专门的机构承担确认工作, 并要求过程透明公开, 最终发布协商一致的标准, 以实现加强法庭科学的有效性和可靠性这一目标。

2020年OSAC发布了《法庭科学方法确认与性能测试中的人为因素》, 作为方法确认的参考文件, 适用于来源推断或分类鉴定的方法, 进一步给出了按照过程管理的模式进行方法确认的详细要求与注意事项, 确认过程包括：验证机构选择、研究管理、样本选择、研究过程控制、数据分析、结果报告、成果公开、正确应用的保证等, 并给出了具体的确认指标和确认实验类型建议, 包括准确性、黑箱研究、一致性、背景信息管理程序、基本真相、可靠性、敏感性、特异性、测试样本、有效/有效性、验证（开发性验证、内部验证）、白箱研究^[13]。反映出对人为判断方法确认的要求日臻完善和严谨。

2.2 国际组织与部分国家方法确认标准研究

2014年, 欧洲法庭科学研究所联盟（European Network of Forensic Science Institutes, ENFSI）发布了一项实验室内方法确认指南, 该指南除规范仪器设备为主的鉴定方法确认要求外, 更是对人为判断方法的确认提出了详细具体的要求：对于特征比对方法首先要建立经过科学审查的统一的特征集, 在此基础上按照分析、比较与验证的特征比对过程, 确认方法的科学性与可靠性。其中特征集的确立与审查是方法确认的基础和关键点, 要求特征集中的每一特征都应注明起源、显著性/差异性、相关性、持久性、可用性、可测量性、稳健性, 并要审查每一特征的特征选择、描述、分类、标记, 特征广泛性、可测性、可比性, 特征特异性、相关性, 永久性、稳健性。在随后的分析、比较、验证环节要求鉴定人员严格按照特征集进行特征提取、比较, 并由另一名合格鉴定员进行独立验证, 看能否得出相同结论^[14]。

同样, 为确保技术方法可靠有效, 英国法庭科学监管机构（FSR）自2014年就在ISO/IEC17025和ILAC-G19的基础上, 先后颁布了4项方法确认指南。其确认要求并未从科学基础角度出发, 而是从技术方法的最终用户— — 刑事司法系统（CJS）的角度, 提出了方法应用的风险评估要求, 包括：1）错误定罪的风险; 2）错误宣判无罪的风险; 3）妨碍或拖延调查的风险^[15]。

2016年, 澳大利亚新西兰警察咨询委员会（Australia New Zealand Policing Advisory Agency, ANZPAA）针对依靠人为判断的专业领域, 发布了《法庭科学基础指南》^[16], 指出“ 人为判断方法主要是基于潜在的特征集假设, 这些假设应该被量化和评估, 因为它们构成了所有方法和意见的基础。这些假设不仅与特征集的性质和频率有关, 还与它们是否可以作为区分群体或个人的手段有关。” 因此, 方法确认工作应集中在八个方面：“ 1）特征是如何产生的, 它们是随机的还是有序的; 2）特征的持久性; 3）特征的转移; 4）将外来/无关事物误认为特征的可能性; 5）特征集子成分的依赖性或独立性; 6）不相关的项目是否有可能彼此相似; 7）群体研究以确定变异水平和变异频率; 8）是否建立了数据库以确定一致特征的频率。” 该指南还在分析方法有效性要求时指出, 法庭上的接受并不能证明一种方法在科学上是有效的, 适当的实验设计对于确保有效的方法确认非常重要, 并列举了一些需要确认的指标, 包括：准确性、精密度、特异性、敏感性、可靠性和复现性。同时指出, 在方法确认中应报告方法的局限性, 包括：指标或一般专业特有的限制, 可能的案件特定限制, 可能存在的适当错误率。

针对方法确认的实证研究活动, 2019年ANZPAA发布了《法庭科学实证研究设计》指南, 从目的（预期）、实验设计、结果和报告、限制条件、结论和影响、审查和出版等六个方面给出了确认的注意事项。在实验设计环节, 强调了需要考虑的因素和注意事项, 包括实验材料, 样本量（含统计学分析）, 操作变量, 易引发混淆的变量, 白箱和黑箱实验, 开放和封闭实验, 参与者和评估者盲测, 质量控制, 不确定意见表述等^[17]。

3 讨论

法庭科学人为判断方法的科学有效性问题从未像今天这样突出, 特别是法学界的专家学者和非法庭科学领域的科学家诟病最多和最严厉。认为判断方法要想持续合理地存在, 就需要寻找充分的证据证明自身的科学价值。

正如一些学者指出的：法庭科学正处于十字路口。它在科学实践和法律实践之间摇摆不定, 科学实践需要实证证明方法的有效性和准确性, 而法律实践则接受基于历史先例的方法, 即使这些方法从未经过有意义的实证验证。这一领域迫切需要更广泛的科学界给予深入而有意义的关注。如果没有这种指导, 法庭科学和执法部门就有可能使被告和犯罪受害者都无法获得司法公正。科学界必须挺身而出, 促进、捍卫和倡导法庭科学中的科学^[18]。近年来, 通过细致的文献和实验研究, 一些西方发达国家取得的成果, 能够给予我们有益的启示。

3.1 建立较完备的方法确认标准

就现已颁布的多份方法确认标准而言, 可以认为西方发达国家已经形成了比较完备的人为判断方法确认体系要求, 其中ENFSI和ANZPAA提出的指南极具可操作性。虽然, 各国给出的这些要求都是以指南或技术报告的形式发布, 尚未形成完全统一的认识, 但总体的趋势, 特别是在确认的量化指标和确认程序上趋于一致。

归纳起来, 人为判断方法确认标准内容主要包括：建立特征集, 确定定性与定量指标, 实验室内评价过程要求, 独立评估要求等。其中最首要的是建立经过科学审查的统一的特征集, 确定的评价指标既要有方法研制过程的量化指标, 也要有鉴定意见评估的量化要求, 在此基础上按照分析、比较与评估的特征比对过程进行实验室内确认, 最后要求开展独立的方法评估。独立权威的评估是判断方法科学有效性和应用价值的不可或缺的环节, 毕竟一项鉴定方法不是研究者自己的活动, 必须具有普遍应用的价值, 独立的方法评估可以保证得出客观和更具有普遍意义的方法准确率或错误率, 判断方法的广泛适用性、方法的抗干扰能力、人员间鉴定活动的一致性, 排除单一实验室确认隐藏的不确定性。

3.2 量化评价是证明方法科学有效性的关键

虽然对人的思维活动进行研究具有难度, 但是为证明人为判断方法的科学有效性, 各方法确认标准都不同程度地针对法庭科学的特点, 尤其是特征比对方法的特点, 提出了量化评价要求以及具体的评判指标, 诸如重复性、复现性、错误率、似然比等。

从理论上分析, 法庭科学人为判断方法往往是用来回答来源或分类问题的, 是对发现的遗留特征和数量与样本进行分析比对, 这些遗留特征和数量是随机的, 在群体中的分布也是随机的, 遗留下的特征形态具有不确定性, 比对特征间缺乏严格一一对应关系, 加之人为的选择, 归纳出的信息往往不完全, 甚至是劣质的, 在此基础上做出的鉴定意见, 不确定性甚至错误是不可避免的。为驾驭不确定性, Rao提出了一个逻辑方程：不确定的知识+所含不确定性量度的知识=可用的知识。这样的知识能够用于找出制定决策的某种规律, 从而减少盲目性, 使做出错误决策的频率最小, 或者使由错误决策产生的损失最小^[19]。

要度量不确定性, 就需要运用统计学的理论和知识, 具体到法庭科学, 需要从两方面来度量不确定性, 一是方法研究过程中, 特征集的建立和特征分布的量化表达, 比对方法可靠性的量化评价, 二是量化的鉴定意见表述。一般来讲, 在研究阶段, 运用概率来更加准确地表述特征分布, 如DNA分析中等位基因频率的研究, 可以量化地评断特征的特异性和可用性, 从而减少特征分析与运用中的不确定性, 提高特征集的科学有效性。要评价方法可靠性, 就必须证明鉴定意见可重复和可复现。相对客观的方法, 主要是运用仪器设备进行检测, 其产出受外界因素的影响小, 判断重复性和复现性的好坏易于量化, 而人为判断方法受主观因素影响大且很不稳定, 量化评价比较困难, 只能通过大量黑箱实验判断, 这包含两个方面, 一方面是鉴定人员的判定结果与真实结果的一致性, 这需要用错误率或准确率来衡量; 另一方面是不同鉴定人员间的判定结果的一致性, 这需要用一致率来评价。在鉴定意见表述方面, 人为判断方法产出的往往是分类或绝对的是与非的意见, 容易将证明力夸大或缩小, 引发误读, 而鉴定意见的量化表述, 如DNA鉴定意见中使用的似然比, 可以比较客观地反映证据强度, 目前指纹、文检、人像、枪弹等专业也都在探索中。可见, 无论是确认过程中的实验产出还是最终的鉴定意见表述, 使用量化评价不仅科学而且更具说服力。

3.3 黑箱白箱研究是确认方法科学有效性的重要手段

人为判断方法确认标准提出了评价的定量指标, 接踵而来的就是要选择恰当的实验方式验证这些指标。由于人为判断方法主要是依靠人的观察、逻辑思维与综合判断, 而大脑的结构十分复杂, 运行过程也与仪器设备那种高度规则的运行完全不同, 更容易受到多种因素的影响, 难以掌控。黑箱方法是从事物或系统的整体功能着眼, 不考虑其内部结构和运行机制, 在不干涉其正常活动的情况下, 整体地研究高度复杂的系统, 已经在计算机、心理学、医学等领域得到了很好的应用。鉴定活动恰恰适合这一研究特点, 把人的判断活动作为黑箱, 把各种可能的鉴定对象作为输入, 经过大脑的处理, 产出鉴定意见, 在不考虑意见如何做出的基础上, 评判人为判断过程的重复性、复现性以及准确性。在2011年, 美国专家就第一次报告了针对指纹鉴定的准确性和可靠性的大规模黑箱研究, 这项研究中169名指纹鉴定人每人比对了约100对指纹, 这些指纹来源于一个744对的数据库, 其中5名鉴定人出现假阳性错误, 总体假阳性率为0.1%, 85%的鉴定人至少出现过一次假阴性错误, 总体假阴性率为7.5%^[20]。该研究提供了量化评价指纹鉴定方法可靠性和准确性的依据。

与黑箱研究相反, 白箱研究则要求将过程的内部结构和运行机制开放, 通过对输出形成过程的研究, 帮助提高分析判断的准确性。白箱研究可以了解鉴定人员如何以及为什么做出其鉴定意见, 详细分析其判断依据和推理过程, 不仅着眼于最终意见, 还关注鉴定人在得出意见时所使用的特征、属性以及推理方式。例如, 美国专家在对指纹比对过程中鉴定人员眼部运动的研究中, 发现错误定位比对区域的发生方式：鉴定人员有时会比较不正确但相似的比对区域, 而不会继续寻找更好的候选比对区域^[21]。初步揭示了比对过程中, 鉴定人员一些可能引发错误的行为, 为改进比对过程提供了有益的参考。

由于黑箱研究结果可以量化评价鉴定意见间的差异性, 而白箱研究还可以反映鉴定人处理各类输入信息中的个体差异性, 因此受到法庭科学界的重视。PCAST、OSAC以及ANZPAA在其报告或标准中都提出了进行黑箱实验的要求, OSAC和ANZPAA还提出了白箱实验的要求, 足以说明这两类实验在量化评价人为判断方法的科学有效性上的重要性。

3.4 与信息技术的结合成为突破主观束缚的方向

无论怎样进行方法确认, 人为判断方法主观性强的特征也无法抹消, 如果能将其转变为客观方法, 其科学有效性将大幅提升, 尤其是针对鉴定意见的量化表述, 单靠传统的技术手段难以实现这一目标, 而与统计学、信息技术、人工智能等学科相结合成为当前研究的方向。

就特征比对方法而言, 其基础是对大量存在于人体或物体上的特征进行提取和分析, 这些特征主要是以图形或信号的方式存在, 易于信息技术储存分析, 特别是指纹、足迹、枪弹、人脸、声纹等数据库的建立, 为运用统计学, 甚至人工智能等技术手段, 进行海量数据分析、比对、验证提供了基础。这种技术结合的结果, 不仅可以提高鉴定的准确度, 减低人为判断的错误率, 还可以量化表述鉴定意见, 如似然比、相似度、匹配度等, 科学地反映证据强度。实际上, 信息技术很早就引起了法庭科学工作者的重视, 如国外学者在2003年就将信息技术运用到文件鉴定中, 由自动化设备执行鉴定人员的部分工作, 可以提高检案效率, 特别是在需要分析大量文档的情况下, 自动化还可以在取证中提供效率、可靠性和标准化^[22]。但这些研究多停留在辅助性的层面, 未能产生根本性转变, 近年来, 这方面取得了一定突破。2018年, 美国国防部法庭科学中心（The Defense Forensic Science Center, DFSC）在法庭科学技术卓越中心（Forensic Technology Center of Excellence, FTCoE）的论坛上介绍了其开发并应用的乳突纹印统计分析软件（Statistical Interpretation Software for Friction Ridge Skin Impressions, FRStat）。该软件旨在提高对证据证明力的统计估计, 并与鉴定人员的意见结合使用。FRStat的结论不同于广泛使用的似然比, 它考虑的是两个印纹之间的相似程度, 而不是判断某个特定个体产生特定印纹的概率^[23]。FRStat虽然仍有不少局限性, 但在定量评估证据强度方面还是进行了很好的尝试, 已经被美国司法部推广, 同时, 该实验室也成为美国第一个使用统计分析结果报告指纹证据的实验室。

在枪弹鉴定方面, 基于计算机的鉴定方法研究也进行了多年。这些方法通常是对弹壳或弹头上的条纹或印痕形貌进行测量。然后通过计算机算法比较这些测量值, 得出一个代表相似程度的比分, 用于判定弹壳或弹头的来源, 并评估错误率, 或确定证据强度。将该类方法与鉴定人判断方法进行的比较研究显示, 鉴定人员的真阳性率略低于计算机方法, 而真阴性率较高, 说明鉴定人在正确识别同一来源方面能力稍差, 而在识别不同来源方面, 优于所使用的计算机方法, 而鉴定人判断的证据强度过高, 反映出鉴定人过于自信^[24]。这些研究虽然是初步的, 但是显示出应用信息技术的方法在结果准确性和客观判断证据强度方面具有更加良好的前景。

3.5 对现有方法科学有效性的评估偏低

人为判断方法虽然早已被法庭采信, 但现在的共识是, 方法必须在法庭采信之前完成严谨科学的方法确认。随着方法科学有效性和方法确认新标准的提出, 对法庭科学领域未经过严格方法确认的方法重新进行确认就显得十分必要。2016年PCAST依据其提出的方法科学有效性标准, 对单一来源和简单混合样本的DNA分析, 复杂混合样本的DNA分析, 咬痕, 潜在指纹, 枪支识别, 鞋类分析以及头发分析等7种特征比对方法的科学有效性进行了评估。其中PCAST判定单一来源和简单混合样本的DNA分析是一种客观的方法, 几乎不涉及或根本不涉及人的判断, 方法的基础有效性水平已被测量并且“ 适合预期应用” 。就应用的有效性而言, 该方法在实践中并不是绝对正确的。错误可能源于样品混淆、污染、错误解释和报告错误。对潜在指纹分析的结论是一种基本有效的主观方法, 假阳性率很高。该方法在应用有效性方面, 有一些悬而未决的问题, 特别是鉴定意见容易受到确认偏差和语境偏见的影响。而其余5种分析方法, PCAST认为都未达到基础有效性的科学标准, 也不是可靠的方法。个别方法被认为在科学上是无效的^[9]。对于法庭科学特征比对方法来说, 其结论是残酷的, 但这也是按照标准评价后的事实, 提醒着法庭科学学者们要按照严格的科学标准来衡量自己的技术方法, 弥补不足, 回应质疑。

3.6 普遍加大基础研究投入

为解决现有方法中存在的问题, 加强基础研究是必由之路。《加强美国法庭科学之路》就明确建议国家法庭科学研究所（National Institute of Forensic Science, NIFS）应资助开展深入研究, 包括：开展科学基础研究, 以证明法庭科学方法的有效性; 建立量化的方法, 衡量法庭科学分析的可靠性和准确性; 开展法庭科学分析结论中不确定性的量化研究; 开展能够提升法庭科学技术客观性的自动化技术研究^[5]。为此, 美国政府于2009年制定了庞大的基础研究计划, 征集了大约600个研究项目, 以提高对法庭科学学科的准确性、可靠性和对测量有效性的理解。同时, 政府与工业界和学术界进行广泛合作, 由政府、鉴定机构、学术团体、大学、研究机构、企业、产业联盟等组成了一系列的研发中心。2009~2018年期间, 美国在法庭科学研究方面的支出已超过2.27亿美元^[4]。自2009年底开始, ENFSI也与多方合作实施了被其称为“ 专有计划” （Monopoly Programme, MP）的系列科研项目, 并由欧盟投入数百万欧元, 围绕着法庭科学领域的科学基础和全面质量提升展开深入研究。其首批计划中就投入了87 996.50欧元资金用于“ 制定法庭科学中分析和比较方法的确认指南” 项目^[25], 并于2014年发布了相关的方法确认指南。

本文前述的成果大多来源于这些项目的支持。通过10年的研究工作, 西方发达国家已经取得了一系列的成果, 在人为判断方法方面, 最突出的成就在于提出了具体严谨的方法确认标准和计算机方法的突破。

4 结论

总而言之, 西方在人为判断方法的科学有效性和方法确认方面的研究已经取得了不少成果, 对现有人为判断方法的评估和方法确认标准的提出, 奠定了评价方法科学有效性的基础; 通过重复性、复现性和错误率等的量化评价研究, 弥补了方法科学有效性的不足; 鉴定意见的量化表述研究, 会更准确地反映证据的证明力, 增强说服力; 与统计学、信息技术等的跨学科研究, 能够减少主观因素的影响, 为主观方法转变为客观方法提供了方向。但是, 当前的研究报道还多是以文献分析为主, 实证性的研究中, 无论是黑箱白箱研究, 还是转化为计算机方法的实验研究, 大多还处于探索阶段, 并未完全成熟, 依然处于量变的积累期。

相对而言, 我国相关领域的研究还有差距, 今后, 一方面应跟住相应的国际前沿, 充分总结和借鉴西方的研究成果, 尽快制定出自己的人为判断方法确认标准, 为评估现有方法和开发新方法打下基础; 另一方面应当组建由法庭科学专家、统计学专家、信息技术专家、心理学专家等不同领域的专家组成的综合团队, 开展与量化评价相关的实验研究和计算机方法研发。

参考文献

文献选项

[1]	HSU S S. FBI admits flaws in hair analysis over decades [N/OL]. The Washington Post, 2015-4-18 [2020-08-08]. https://www.washingtonpost.com/local/crime/fbi-overstated-forensic-hair-matches-in-nearly-all-criminal-trials-for-decades/2015/04/18/39c8d8c6-e515-11e4-b510-962fcfabc310_story.html. [本文引用:1]
[2]	ALEXANDER K L. National accreditation board suspends all DNA testing at D. C. crime lab [N/OL]. The Washington Post, 2015-4-27 [2020-08-08]. https://www.washingtonpost.com/local/crime/national- accreditation-board-suspends-all-dna-testing-at-district-lab/2015/04/26/2da43d9a-ec24-11e4-a55f- 38924fca94f9_story.html. [本文引用:1]
[3]	雅斯贝斯. 历史的起源与目标[M]. 魏楚雄, 俞新天, 译. 北京: 华夏出版社, 1989: 97. (JASPERS K. The origin and goal of history[M]. Wei Chuxiong, YU Xintian, Trans. Beijing: Huaxia publishing house, 1989: 97. ) [本文引用:1]
[4]	BALLOU S M. The NAS report: ten years of response[J]. Journal of Forensic Sciences, 2019, 64(1): 6-9. [本文引用:2]
[5]	Committee on Identifying the Needs of the Forensic Sciences Community, National Research Council. Strengthening forensic science in the United States: a path forward [M/OL]. [2020-08-08] Washington, D. C: National Academies Press, 2009. http://www.nap.edu/catalog/12589.html. [本文引用:2]
[6]	SWGFSAT. Validation of research and technology draft for comment[J]. Journal of Forensic Identification, 2001, 58(3): 247-258. [本文引用:1]
[7]	SWGGUN. SWGGUN quality assurance guidelines[J]. AFTE Journal, 2013, 45(1): 82-85. [本文引用:1]
[8]	SWGFAST. Stand ard for the validation and performance review of friction ridge impression development and examination techniques(latent/tenprint) [EB/OL]. (2012-11-16)[2020-08-08]. http://www.swgfast.org/ Documents.html. [本文引用:1]
[9]	PCAST. Forensic science in criminal courts: ensuring scientific validity of feature-comparison methods [R/OL]. (2016-09-20)[2020-08-08]. https://obamawhitehouse.archives.gov/sites/default/files/microsites/ ostp/PCAST/pcast_forensic_science_report_final.pdf. [本文引用:2]
[10]	NCFS. Views of the commission technical merit evaluation of forensic science methods and practices [EB/OL]. (2016-06-21)[2020-08-08]. https://www.justice.gov/archives/ncfs/file/881796/download. [本文引用:1]
[11]	OSAC. OSAC technical merit worksheet [EB/OL]. (2018-12-04)[2020-08-08]. https://www.nist.gov/document/technicalmeritguideandworksheetdocx. [本文引用:1]
[12]	NCFS. Reflecting back—looking toward the future [EB/OL]. (2017-04-11)[2020-08-08]. https://www.justice.gov/archives/ncfs/page/file/959356/download. [本文引用:1]
[13]	OSAC. Human factors in validation and performance testing of forensic science [EB/OL]. (2020-03-04)[2020-08-08]. https://www.nist.gov/system/files/documents/2020/05/22/osactechseriespub_hf%20in%20validation%20 and%20performance%20testing%20of%20forensic%20science_march2020.pdf. [本文引用:1]
[14]	ENFSI. Guidelines for the single laboratory validation of instrumental and human based methods in forensic science[EB/OL]. (2014-10-11) [2020-08-08]. https://enfsi.eu/wp-content/uploads/2017/06/Guidance-QCC-VAL-002.pdf. [本文引用:1]
[15]	FSR. Forensic science providers: validation [EB/OL]. (2014-11-04) [2020-08-08]. https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/375285/FSR-G-201_Validation_guidance_November_2014.pdf. [本文引用:1]
[16]	ANZPAA. A guideline to forensic fundamentals: identifying the underpinning science of human based forensic science disciplines [EB/OL]. [2020-08-08]. https://www.anzpaa.org.au/forensic-science/our-work/products/publications. [本文引用:1]
[17]	ANZPAA. Empirical study design in forensic science [EB/OL]. [2020-08-08]. https://www.anzpaa.org.au/ forensic-science/our-work/products/publications. [本文引用:1]
[18]	BELL S, SAH S, ALBRIGHT T D. et al. A call for more science in forensic science[J]. Proceedings of the National Aca-demy of Sciences of the United States of America, 2018, 115(18): 4541-4544. [本文引用:1]
[19]	劳. 统计与真理: 怎样运用偶然性[M]. 北京: 科学出版社, 2004: 37. (RAO C R. Statistics and truth: how to use contingency [M]. Beijing: Science Press, 2004: 37. ) [本文引用:1]
[20]	ULERY B T, HICKLIN R A, BUSCAGLIA J, et al. Accuracy and reliability of forensic latent fingerprint decisions[J]. Proceedings of the National Academy of Sciences of the United States of America, 2011, 108(19): 7733-7738. [本文引用:1]
[21]	HICKLIN R A, ULERY B T, BUSEY T A, et al. Gaze beha-vior and cognitive states during fingerprint target group localization[J]. Cognitive Research: Principles and Implications, 2019(4): 12. [本文引用:1]
[22]	HARRALSON H H, WAITES E, WILL E J, et al. A survey of forensic hand writing examination research in response tothe NAS Report: 17th Biennial Conference of the International Graphonomics Society, International Graphonomics Society(IGS);Université des Antilles (UA), France, Jun 2015 [C/OL]. [2020-08-08]. https://hal.univ-antilles.fr/hal-01165905. [本文引用:1]
[23]	FTCoE. IPTES 2018 workshop: statistical interpretation software for friction ridge skin impressions (FRStat). [2020-08-08]. https://forensiccoe.org/statistical-interpretation-software-for-friction-ridge-skin- impressions-frstat/. [本文引用:1]
[24]	MATTIJSSEN E J A T, WITTEMAN C L M, BERGER C E H, et al. Validity and reliability of forensic firearm examiners[J]. Forensic Science International, 2020, 307: 1-14. [本文引用:1]
[25]	ENFSI. MP2009 [EB/OL]. [2020-08-08]. https://enfsi.eu/projects/monopoly-programmes-mp/mp2009/. [本文引用:1]

2015

0.0

... 如：由于应用并不完善的显微毛发比对技术,美国联邦调查局承认在268个使用了FBI毛发鉴定部门所提供的证据的审判案件中,逾95%的案件中发现了错误的或有利于检方的证词^[1] ...

2015

0.0

... 2015年,美国华盛顿邮报报道,华盛顿特区犯罪实验室因DNA混合分型解释问题被暂停工作^[2] ...

1989

0.0

... 正如雅斯贝斯指出的,科学具有三个必不可缺的特点,即认识方法,可靠确凿和普遍有效^[3] ...

2019

0.0

... 其实,早在上世纪30年代就有专家指出法庭科学部分专业的鉴定方法需要改进,但直到2009年美国国家研究委员会发布了《加强美国法庭科学之路》的报告后,这一问题才逐渐被重视起来^[4] ...

... 27亿美元^[4] ...

0.0

... ^[5] ...

... 开展能够提升法庭科学技术客观性的自动化技术研究^[5] ...

2001

0.0

... 其实,人为判断方法的确认要求在一些领域已经提出多年,如：美国指纹分析、研究和技术工作组（Scientific Working Group on Friction Ridge Analysis, Study and Technology,SWGFSAT）在成立不久就于2001年起草了《研究与技术确认》草案,提出了指纹分析方法的确认要求,在确认阶段上提出了文献研究、标准样品分析、一致性和复现性分析、多种环境下的样品分析四阶段,在确认程序方面,要求现有方法的确认只需要进行实验室内部确认,而新方法需要进行内外部确认^[6] ...

2013

0.0

... 2012年,美国火器与工具痕迹工作组（Scientific Working Group for Firearms and Toolmarks,SWGGUN）修订了质量保证指南,要求任何技术和程序应在用于个案工作之前进行确认,以确保准确性和复现性^[7],明确提出了方法确认中要评价方法的准确性和复现性 ...

2012

0.0

... 同年,SWGFAST发布《指纹鉴定方法的确认及评价标准》,修订了原有的要求,规定方法确认过程分四个阶段：理论评估、在理想样本上进行性能评估、在实际样本上进行性能评估和在实地应用环境中进行技术评估^[8],这些规定适用于定量、定性和分类方法 ...

2016

0.0

... ^[9] ...

... 个别方法被认为在科学上是无效的^[9] ...

0.0

... 是指在技术的准确性、能力和局限性方面,为特定目的奠定基础的研究和数据^[10] ...

2018

0.0

... 经不断完善,现行的2018版OSAC注册方法技术价值工作表中列出了12个方面的具体评价要求,包括：目的、范围、术语、过程或程序的清晰和详细程度、测量不确定度、错误率、质量保证、确认过程、法律资源委员会关注点、人为因素委员会关注点、质量基础设施委员会关注点以及统计工作组关注点^[11] ...

2017

0.0

... 第三,对于经由NIST按照技术价值确立的法庭科学检测方法和实践方案,OSAC领导层应共享其协商一致的文件标准^[12] ...

2020

0.0

... 2020年OSAC发布了《法庭科学方法确认与性能测试中的人为因素》,作为方法确认的参考文件,适用于来源推断或分类鉴定的方法,进一步给出了按照过程管理的模式进行方法确认的详细要求与注意事项,确认过程包括：验证机构选择、研究管理、样本选择、研究过程控制、数据分析、结果报告、成果公开、正确应用的保证等,并给出了具体的确认指标和确认实验类型建议,包括准确性、黑箱研究、一致性、背景信息管理程序、基本真相、可靠性、敏感性、特异性、测试样本、有效/有效性、验证（开发性验证、内部验证）、白箱研究^[13] ...

2014

0.0

... 在随后的分析、比较、验证环节要求鉴定人员严格按照特征集进行特征提取、比较,并由另一名合格鉴定员进行独立验证,看能否得出相同结论^[14] ...

2014

0.0

... 3）妨碍或拖延调查的风险^[15] ...

0.0

... 2016年,澳大利亚新西兰警察咨询委员会（Australia New Zealand Policing Advisory Agency,ANZPAA）针对依靠人为判断的专业领域,发布了《法庭科学基础指南》^[16],指出#cod#x0201c ...

0.0

... 在实验设计环节,强调了需要考虑的因素和注意事项,包括实验材料,样本量（含统计学分析）,操作变量,易引发混淆的变量,白箱和黑箱实验,开放和封闭实验,参与者和评估者盲测,质量控制,不确定意见表述等^[17] ...

2018

0.0

... 科学界必须挺身而出,促进、捍卫和倡导法庭科学中的科学^[18] ...

2004

0.0

... 这样的知识能够用于找出制定决策的某种规律,从而减少盲目性,使做出错误决策的频率最小,或者使由错误决策产生的损失最小^[19] ...

2011

0.0

... 5%^[20] ...

2019

0.0

... 例如,美国专家在对指纹比对过程中鉴定人员眼部运动的研究中,发现错误定位比对区域的发生方式：鉴定人员有时会比较不正确但相似的比对区域,而不会继续寻找更好的候选比对区域^[21] ...

0.0

... 实际上,信息技术很早就引起了法庭科学工作者的重视,如国外学者在2003年就将信息技术运用到文件鉴定中,由自动化设备执行鉴定人员的部分工作,可以提高检案效率,特别是在需要分析大量文档的情况下,自动化还可以在取证中提供效率、可靠性和标准化^[22] ...

0.0

... FRStat的结论不同于广泛使用的似然比,它考虑的是两个印纹之间的相似程度,而不是判断某个特定个体产生特定印纹的概率^[23] ...

2020

0.0

... 将该类方法与鉴定人判断方法进行的比较研究显示,鉴定人员的真阳性率略低于计算机方法,而真阴性率较高,说明鉴定人在正确识别同一来源方面能力稍差,而在识别不同来源方面,优于所使用的计算机方法,而鉴定人判断的证据强度过高,反映出鉴定人过于自信^[24] ...

0.0

... 项目^[25],并于2014年发布了相关的方法确认指南 ...