言语识别技术发展概述
黄文林1,2
1.中国人民公安大学,北京 100038
2.公安部物证鉴定中心,北京 100038

作者简介:黄文林(1979—),男,江苏泰州人,副研究员,在读博士,目前主要研究兴趣为文件检验中书面言语证据的言语人特征刻画与身份鉴别。Tel:(010)66269512; E-mail:huangwenlin2004@163.com

摘要

本文着重综述并探讨了文件检验技术的重要组成部分——言语识别技术的学科发展历程、近30年学术成果现状、存在问题以及未来的发展思考。

关键词: 言语识别; 文件检验; 学科历史; 成果现状; 发展趋势
中图分类号:DF794.2 文献标志码:A 文章编号:1008-3650(2014)03-0026-03
The development of forensic linguistics
HUANG Wen-lin
Abstract

In this paper, the development of forensic linguistics, including the history of forensic linguistics, the research achievements, the challenges that forensic linguistics confronts in the information era, and the research trends was discussed.

Keyword: forensic linguistics; research achievements; information era; research trends

在文件检验中, 常常需要解决下列几类问题:(1)文件上的笔迹是谁所写?(2)文件是如何形成的, 手写还是印刷?(3)文件是否经过伪造或变造?(4)文件的形成时间是什么时候?(5)文件上的内容是什么样的人表达出来的?本文主要讨论第5类问题, 即“ 言语识别” , 主要通过书面材料分析出涉案人的身份特征, 为确定案件侦查方向和范围、认定作案人提供依据。本文所指言语识别, 不包括声纹检验与鉴定。

1 言语识别技术的发展历程

言语识别在案件侦查、犯罪嫌疑人特征刻画等方面发挥着积极作用。以1984年中国刑警学院在全国首次开设“ 言语识别” 课程为标志[1], 言语识别作为一门学科的发展已有30年。而利用语言知识断案, 古已有之, 有案例记载的最早见于《三国志· 魏书》中“ 国渊比书” , 之后的案例散见于古代刑事技术书籍之中, 如五代和凝父子《疑狱集》、南宋郑克《折狱龟鉴》、明代冯梦龙的《智囊补》等[2]

建国后, 将语言学知识应用到侦查破案中, 是从20世纪60年代开始的。70年代初, 随着像中国科学院语言研究所(现中国社会科学院语言研究所)邱大任这样专门从事语言研究的语言工作者走上公安战线, 利用语言学知识成功侦破了很多反动、敲诈、勒索、绑架杀人等大案要案, 言语识别技术逐渐发展起来。1984年, 中国刑警学院在文件鉴定专业本科开设“ 汉语方言” 、“ 言语识别” 课程; 1985年, 邱大任出版我国第一部言语识别专著《语言识别》, 这两起事件标志着言语识别作为一门学科已初步形成[3, 4]。经过数十年的发展, 言语识别技术的学科体系在实践中不断得到修正完善, 逐步形成了得到广大文件检验人员认可并被广泛采用的言语识别理论体系, 包括研究对象、研究方法、基本原理、检验程序等等。言语识别技术在案件侦查、分析刻画言语人特征方面不断发挥作用, 越来越多的案件利用言语识别技术被有效侦破[5]

进入21世纪, 计算机技术飞速发展, 网络交际由小众变为大众, 成为广受人们认可和使用的新交际模式, 相对于传统交际模式而言, 网络交际有着快捷经济、简洁省略、搞笑等特点, 网络语言呈现出与传统交际模式下的语言截然不同的特征。在网络新媒体时代, 传统交际模式下的各种手写信件、传单逐渐被新交际模式下的电子文件、网络信息所取代, 言语识别面临着全新的挑战, 在新交际模式下, 如何发展言语识别技术, 怎么满足新形势公安工作的实际办案需要, 成为摆在文件检验人员面前需要迫切解决的问题。因此, 非常有必要对言语识别技术的发展现状及存在问题进行系统梳理与分析。

2 言语识别技术的发展现状
2.1 言语识别技术30年的成果统计

办案科研队伍方面, 据内部不完全统计, 截至2013年底, 全国从事文件检验工作的公安机关人员约1075人, 公安政法院校教师约95人。受理案件方面, 近10年公安机关受理咨询或送检的言语识别案件全国每年平均累积约500起; 在国保安全领域, 言语识别的案件数量要远远高于这个水平, 同时相比公安侦查机关而言, 国保安全领域对言语识别技术的需求要高得多。

笔者将30年已公开发表的科研成果进行了统计。著作方面, 1985年, 邱大任出版第一部言语识别专著《语言识别》[3, 4]; 1990年, 贾玉文在《文件检验学教程》中专设“ 言语的个人识别” 一节, 简要论述了个人言语风格识别的原理和方法[6]; 1995年, 邱大任编著的《侦查语言学》出版, 系统论述侦查语言学的基本原理、检验方法和各种言语特征[7]; 2002年, 岳俊发在《刑事科学技术大全· 文件检验》中专门一篇共十四章内容论述“ 言语识别与鉴定” [8]; 2007年岳俊发编著的《言语识别与鉴定》出版。期刊论文方面, 分别以“ 言语识别” 、“ 语言识别” 、“ 侦查语言学” 、“ 语言特征” 、“ 言语特征” 、“ 言语+识别” 、“ 语言+识别” 等为检索词, 在中国学术期刊网络出版总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库、国际会议论文全文数据库、中国重要报纸全文数据库等6大数据库中检索, 检出发表于1984-2014年阐述言语识别的相关论文共46篇。会议论文方面, 以进入新世纪以来的学术交流会议为例。一是全国文件检验学术交流会, 该交流会为我国文件检验领域专业水平高、影响力大的专业学术会议, 每4年举办1次, 汇集全国公、检、法、司、海关和公安政法院校等从事文件检验工作的专家学者, 出版技术论文集1册, 结集当时文件检验的最新理论成果与先进科研技术。经统计, 2000年~2012年间举办了4届文检会, 共发表论文713篇, 其中论及言语识别技术的论文有24篇, 占文件检验的3.37%。二是全国物证鉴定技术破案研讨会, 该研讨会为物证鉴定领域主要针对案件侦破实践与经验交流的专业会议, 每年举办1次。1999~2013年, 共有451篇文件检验方面的科研成果发表, 其中言语识别方向的文章有21篇, 占文件检验的4.46%。

2.2 统计结果分析

言语识别技术源于办案实践。办案工作的发展要求一方面需要不断总结办案实践的各种经验教训, 使之上升为理论; 另一方面又需要不断产生新的理论成果, 及时指导办案工作。综观全国这个拥有1100余人的专业队伍30年的研究成果, 不难看出, 不同历史时期产生了一些阐述言语识别理论与实践探索的研究成果, 有力指导了公安实战工作, 为案件侦查提供了重要依据, 在打击犯罪、维护稳定等方面发挥了重要作用; 随着公安工作形势的变化, 面对日益增多的嫌疑人身份特征刻画需求, 言语识别现有的研究成果无论从理论层面还是从实践层面, 都难以满足公安工作的实际需要。具体表现在以下三方面。

2.2.1 现有研究重应用, 轻理论 作为一门应用性学科, 言语识别一直以来关注实际应用、关注其在案件侦办中发挥的作用, 相关研究大多是实际应用的经验交流和案件侦办的心得体会, 缺乏理论层面深层次的特征分析与规律挖掘。这样容易导致下列情形的产生:

(1)有一个案例就有一个实践问题, 不同的检验人员就去解决不同的实际问题, 缺乏对问题性质和类型规律的思考和探索。一旦案例相近, 很多结论与体会就出现相似雷同, 对案例和现象的小结流于表面, 缺乏理论层面的剖析与引申, 更不见应有的规律总结, 就无法形成同类问题的数据支撑和解决方案, 也就无法达到举一反三的效果, 难以推动学科深入发展。而这恰恰就是要深入进行理论研究和探索的意义所在。

(2)长期以往理论研究的缺乏, 易形成研究惯性, 往往导致对新模式、新问题的研究依然流于表面, 大多停留在现象描述上, 缺乏进一步的规律探索, 更缺乏有效方案或普遍性解决方案的产生, 这样就容易形成学科发展的瓶颈。

(3)一直以来, 言语习惯的稳定性、反映性和特殊性的理论基础受到广大文件检验人员的认可, 这一理论在言语材料与言语人的社会种属特征之间建立了关联。言语识别的根本目标是通过言语材料的分析实现对言语人的身份特征刻画与识别, 其中人是出发点和落脚点, 怎么体现言语材料与言语人之间的本质关系, 现有的理论基础似乎难以做出有效解释。

2.2.2 缺乏对言语识别新模式的有效研究 随着交际新模式的产生, 网络语言的言语识别成为新的研究课题。一方面, 研究对象发生了巨大改变, 从传统信件分析转向对QQ语言、微博语言、博客语言等新兴交际模式下的网络语言的分析; 另一方面, 针对新交际模式下的分析方法的研究亟需开展。原先主要依据各种手写信件构建起来的言语特征是否适用于网络交际这种新模式; 网络交际的言语特征如何, 是否也能直接沿用相同的社会种属判定标准; 网络语言的言语识别有什么规律可循, 等等, 相应的基础研究比较缺乏。现有的研究大多是对网络语言的现象分析和表面特征的列举, 缺乏对不同特征的深入剖析和实践支撑, 更未见对QQ、微博、博客等实际语料的系统分析。

2.2.3 受到科学性质疑, 缺乏应有的学科认同 言语识别的结论源自文件检验人员对言语特征的选择和对言语特征与社会种属特征对应关系的判断, 这一过程主要依赖检验人员积累的专业知识、专业经验及对言语特征属性的主观认识, 相对于偏重实验室分析鉴定的专业(诸如DNA检验、理化检验等)而言, 言语识别的鉴定结论缺乏量化数据支撑, 常常会被冠之以“ 经验型学科” , 结果判别也容易受到法律界的质疑。实际上, 进入新世纪以来, 经验型学科的基础科学验证、检验过程的客观标准、经验性知识的规律提升与传授培训等方面一直受到全世界法律的关注。因此, 虽然言语识别在很多大案要案的侦破中发挥了关键作用, 但由于言语识别的主观经验性和不确定性较强, 常常会受到科学性的质疑。

众所周知, 指纹检验、DNA检验能实现人的个体识别。尽管从20世纪末期逐渐产生了对指纹检验科学性及检验标准的质疑, 但没有人能否认和忽视指纹检验在实现人的个体识别方面发挥的无法替代的作用。19世纪末期开始, 近一个世纪, 指纹被称为证据之首, 为什么指纹能够实现人的个体识别?因为每个人都拥有指纹, 在不出现任何外界医疗介入的情况下, 人的指纹是独一无二和终身不变的, 这就为实现指纹识别提供了依据。20世纪80年代, DNA技术应用到刑事侦查领域, 1985年第一张DNA指纹图的出现, 将DNA与人的个体之间搭建了识别桥梁。而对于言语识别, 为什么利用语言能够进行犯罪嫌疑人身份特征刻画, 为什么能够进行轨迹描述?人的言语与人的个体识别之间的关系究竟是怎样的?为什么能够实现人的识别?这些问题都无人开展相关深层次研究, 这也是刑事技术这类注重实践的学科的特点, 大家都将精力集中在如何解决实际案例问题上。诚然, 对刑事技术而言, 解决实践问题是技术的终极目标, 不管理论体系多么完备, 结构多么合理, 都为了这个核心目标, 指导实践、解决实践问题。然而, 就技术发展的长远角度而言, 实践必须依靠理论去夯实、去提升, 作为一门传统学科, 怎么给其在刑事技术领域诸多学科中进行合理定位, 并给出明确合理可信的解释, 对学科发展来说至关重要, 但至今未见相关的研究能将言语识别、言语与人的识别之间的关系解释清楚。

3 思考与建议

基于当前公安工作对嫌疑人身份特征刻画的迫切需要, 针对言语识别面临的新形势新变化, 笔者认为以新模式的言语特征为研究对象, 可从三方面开展研究, 着重解决相应问题:一是从理论层面, 针对现有的学科理论主要建立在办案实战经验之上相对薄弱的实际情况, 开展深入的理论探索, 扩展现有的知识体系, 以适应新模式下更新完善学科理论的需求; 二是从实践层面, 开展一定人群的不同类型网络语言使用情况调研及相应的言语特征统计分析, 试图寻找具有可操作性的网络言语的言语识别方法与思路, 并在理论上加以充实完善, 实现新模式下网络言语的言语识别, 充实言语识别的基础数据及语料存储, 解决言语识别新模式理论探讨和实践分析的缺乏问题; 三是从学科定位层面, 将言语识别置于刑事技术全景之下, 挖掘语言、社会、人三者之间的关系, 加强言语识别与指纹检验、DNA检验等技术的对比分析, 探索人与言语之间的本质关系, 将刑事技术领域能实现个体识别的多个学科共同置于人的本质特征下进行全方位观照, 解决言语识别在刑事技术领域中的科学定位问题。

The authors have declared that no competing interests exist.

参考文献
[1] 邱大任. 语言分析在侦察破案中的应用[J]. 刑事技术, 1980(5): 27-32. [本文引用:1]
[2] 崔军民. 侦查语言学的产生、发展与现状[J]. 语言文字应用, 2011(2): 54-62. [本文引用:1]
[3] 岳俊发. 言语识别与鉴定[M]. 北京: 中国人民公安大学出版社, 2007. [本文引用:2]
[4] 邱大任. 语言识别[M]. 辽宁: 辽宁人民出版社, 1990. [本文引用:2]
[5] 师成全. 浅析犯罪嫌疑军人的书面语言特点[J]. 刑事技术. 2002(1): 41-43. [本文引用:1]
[6] 贾玉文. 文件检验学教程[M]. 辽宁: 辽宁人民出版社, 1990. [本文引用:1]
[7] 邱大任. 侦查语言学[M]. 北京: 中国人民公安大学出版社, 1995. [本文引用:1]
[8] 贾玉文邹明理. 中国刑事科学技术大全·文件检验[M]. 北京: 中国人民公安大学出版社, 2002. [本文引用:1]