案件书面言语量化辅助分析系统
王虹1,2, 朱靖波2
1. 中国刑事警察学院,沈阳 110035
2. 东北大学自然语言处理实验室,沈阳 110004

第一作者简介:王虹(1977—),女,吉林九台人,博士,副教授。研究方向为言语识别、书面言语鉴定、声纹鉴定、自然语言处理。E-mail:wanghong0129@126.com

摘要

书面言语鉴定对鉴定人员的经验和主观判断依赖性大,检验过程中定性的分析判断多、定量的少,特征选取的随意性较大、主观性强,缺少特征自动选取与量化分析的辅助性工具软件,凡此等等。案件书面言语量化辅助分析系统针对性地解决上述问题,实现了对别字、方音别字、实词与虚词的使用习惯、繁体字、成语、词汇套、术语、行话、被动结构、处置句、直接引语、标点符号的选用和信封三款用语等特征的半自动选取与量化分析,以及对字频、词性频率、词频、构成词的音节多寡、句长、标点符号的使用频率等特征的自动选取与量化分析,明显降低了检验人员的工作量,提高了检验效率,为更好的得到鉴定意见提供了量化数据支持。

关键词: 书面言语; 特征; 半自动选取; 自动选取; 量化分析
中图分类号:DF794.2 文献标志码:B 文章编号:1008-3650(2017)05-0414-04
An Analysis System Assisting in Case-concerned Authorship Identification
WANG Hong1,2, ZHU Jingbo2
1. National Police University of China, Shenyang 110035, China
2. NLP Laboratory of the College of Information Science and Engineering of Northeastern University, Shenyang 110819, China
Abstract

Authorship identification deeply depends on the analyst’s experience and subjective judgment. Such identification is achieved more from qualitative analysis than the quantitative, and the selected features derive more out of arbitrary and subjective choices, lacking the properness-oriented automatic selection and quantification. These hindrances urged to develop an analysis system assisting in case-concerned authorship identification (ASAAI). The ASAAI can perform semi-automatic select and quantitative analysis on the following features of ghost word, dialect ghost word, usage habits in content and/or function word, traditional Chinese characters, idioms, vocabulary sets, jargon, terminology, passive constructions, disposal sentence, direct speech, punctuations plus the words written on envelope. For the automatic select and quantitative analysis by ASAAI, the relevant features involve with the character frequency, frequency of part of speech, word frequency, number of the syllables constituting a word, sentence length, frequency of the used punctuation and the others related. The ASAAI will significantly reduce the workload of analysts, capable of improving the test efficiency and providing the quantitative data for expert opinion to be better drawn out.

Key words: written parole; features; semi-automatic select; automatic select; quantitative analysis

书面言语是指以文字形式存在的言语, 其载体形式主要包括纸质、网络和电子文本。书面言语鉴定, 是法庭科学领域文件检验专业言语识别与鉴定技术学科(亦称为侦查语言学或司法语言学)中的一个术语, 国外也称作者鉴别(Authorship Identification)、作者比较(AuthorshipComparison)、作者归属(Authorship Attribution)[1], 是通过检材与样本两者言语的比对鉴别, 判断二者言语习惯是否一致, 为案件侦查、审判提供证据的一种专门技术手段[2]

从20世纪80年代末开始, 中国刑警学院一直致力于书面言语鉴定的研究和办案工作。近年来, 随着办公自动化和网络技术的发展, 不留笔迹的打、复印言语涉案材料、各种网络言语材料和电子文本言语材料显著增多, 如上海市公安局2015年完成书面言语鉴定案件34起, 其中网络言语分析案件12起, 分析网文2500余篇、网帖推文16 000余条, 提供分析意见27份。书面言语鉴定技术越来越受到人们的关注, 大量研究成果相继发表并成功应用于鉴定实践。但同时应该承认书面言语鉴定技术一直存在对鉴定人员经验和主观判断依赖性大, 检验过程中定性分析判断多、定量少, 言语特征选取随意性大、主观性强、缺少量化选取与分析, 缺少言语特征自动选取与量化分析的辅助工具软件等众多问题。准确、高效地选取书面言语特征是进行书面言语鉴定的前提和基础。

笔者曾在查阅大量文献的基础上, 结合多年研究和办案心得, 归纳出了10大类63小类常用特征, 并从理论上逐一探讨了这些特征实现半自动、自动选取与量化分析的可能性[3]

本文介绍我们自主研发的“ 案件书面言语量化辅助分析系统” 及其各功能模块的具体内容、操作和实践应用。

1 系统基本设置

“ 案件书面言语量化辅助分析系统” (图1、2), 用于案件书面言语的辅助量化分析, 满足各级公、检、法机关文检部门检验鉴定书面言语案件的需要。

图1 系统图标Fig.1 System logo of the software

图2 登录界面Fig.2 Login interface

本系统可用于案件受理、特征选取、比对表生成、检验分析、鉴定文书撰写及案件存档的整个案件办理流程。本系统有案件基本信息管理模块, 可实现案件管理的规范化, 方便查找案件及其各种信息。

2 系统功能
2.1 检材、样本的导入

2.1.1 电子文本和网络文本的导入

电子文本和网络文本可通过转存或登录网页的方式直接将案件语料导入系统(图3、4)。

图3 电子文本的导入Fig.3 Import of electronic text

图4 网络文本的导入Fig.4 Import of web text

2.1.2 手写文本、打/复印文本的导入

手写文本、打/复印文本需通过扫描、打字的方式导入系统。手写文本要扫描原文件图片, 以供选择各种格式特征。再通过手工打字录入的方式, 形成文本文件, 以电子文本方式导入系统以供其他言语特征的自动和半自动选取与量化。打/复印文本可使用文本王等扫描仪直接扫描生成word文件, 经过参照检材原件进行排版校对后, 以电子文本方式导入系统使用。

2.2 半自动选取与量化特征

为对某些特征进行半自动选取与量化而研发设置。这些特征主要包括:方音别字、别字、繁体字、实词和/或虚词的使用习惯、词汇套(即习惯性搭配)、处置句、被动结构、直接引语、信封三款用语、标点符号的选用等。检验人员需在本系统的“ 半自动选取与量化” 界面手动输入特征词(由检验人员从检材中选出), 然后从特征类中选取一个特征类别, 再点选需要选取特征的所有检材和样本, 系统就可一次性完成对同一检材、其他检材和所选样本的自动检测, 找出所有这些文本中出现的该特征, 将含有这个特征的句子自动归入特征比对表中的相应位置, 并对其出现频次、所占百分比等进行自动量化分析, 给出相应的量化结果, 如图5所示。

图5 半自动选取与量化分析结果导出的“ 特征比对表” Fig.5 Feature comparison table resulted from the semi-automatic selection and quantitative analysis

2.3 自动选取与量化特征

即对一些特征作自动选取与量化。这些特征主要包括:字频、词频特征(含成语、行业语、术语的使用频率特征)、词性频率、构成词的音节多寡、句长、标点符号的使用频率等。检验人员需在《案件书面言语量化辅助分析系统》的“ 自动选取与量化” 界面点选需要选取特征的所有检材和样本, 再点击所要进行选取与量化的特征, 系统就可一次性完成对多个检材和样本中相应特征的自动检测, 然后以列表形式列出所有的量化结果, 供检验人员选择出需放入比对表中的部分并自动归入特征比对表中的相应位置。

2.3.1 字(词)频特征的自动选取与量化

本系统可自动统计每份检材和样本中各出现了多少字(词)、每个字或词(以降序排列)的出现频次、该字(词)出现次数占总(词)字数的百分比, 其导出结果如图6、7。

图6 “ 字频统计” 结果导出的“ 特征比对表” Fig.6 Feature comparison table resulted from the statistics of character frequency

图7 “ 词频统计” 结果导出的“ 特征比对表” Fig.7 Feature comparison table resulted out of the statistics of word frequency

2.3.2 词性频率特征的自动选取与量化

本系统可分别统计每份检材和样本中出现的名词、动词、形容词、量词、数词、介词、代词、连词等各自的数量, 即其出现频次(以降序排列), 以及这种词性的词的总数占全篇总词数的百分比, 其导出结果如图8所示。

图8 “ 词性频率统计” 结果导出的“ 特征比对表” Fig.8 Feature comparison table resulted from the statistics about the frequency of part of speech

2.3.3 构成词的音节多寡特征的自动选取与量化

本系统可分别统计每份检材和样本中出现的单音节词、双音节词、三音节词、四音节词、五音节及以上词数量的多少, 即其出现频次(以降序排列), 以及该种词占全篇总词数的百分比, 其导出结果如图9所示。

图9 “ 构成词的音节多寡的统计” 结果导出的“ 特征比对表” Fig.9 Feature comparison table resulted from the statistics of those syllables constituting a word

2.3.4 句长特征的自动选取与量化

本系统可分别统计每份检材和样本中出现的所有句子的长度, 即每个句子是由多少个字构成(以句长降序排列), 及其占全文总字数的百分比, 其导出结果如图10所示。

图10 “ 句长统计” 结果导出的“ 特征比对表” Fig.10 Feature comparison table resulted out of the statistics of sentence length

2.3.5 标点符号的使用频率特征的自动选取与量化

本系统可分别统计每份检材和样本中出现的句号(。)、问号(?)、感叹号(!)、逗号(, )顿号(、)、分号(; )、冒号(:)、引号(“ ” )、括号〔( ) [ ] { } 〕、破折号(— — )、省略号(……)、着重号(.)、书名号(《 》〈 〉)、间隔号(· )、连接号(— )等的出现频次(以降序排列), 以及某种标点符号占全篇标点符号总数的百分比, 其导出结果如图11所示。

Fig.11 Feature comparison table resulted out of the statistics of the frequency of punctuation marks
“ 标点符号使用频率统计” 结果导出的“ 特征比对表”

此外, “ 词的文体色彩(书面, 口语, 俚语)、语序特征、主语的类型特征” 等也可实现自动选取并量化, 有关工作将在以后进行。

2.4 辅助专家手动选取与量化书面言语特征

目前, 仍然有很多书面言语特征必须借助专家经验才能被选取出来并量化。为了让普通检验人员能够更易开始书面言语鉴定, 《需借助专家经验选取并量化的特征列表》被专门制作, 在《案件书面言语量化辅助分析系统》中以下拉菜单的方式调取, 以起到提示作用, 方便检验人员按照这些特征提示逐一进行选取。导出结果如图12。

图12 “ 手动选取与量化分析“ 结果导出的《特征比对表》Fig.12 Feature comparison table resulted out of the manual selection and quantitative analysis

2.5 提供鉴定文书模板

本系统提供《鉴定书》《鉴定意见书》《检验报告》《分析意见》《回执》等不同类型的鉴定文书模版, 为检验人员撰写鉴定文书提供参考。

综上, “ 案件书面言语量化辅助分析系统” 实现了对一些书面言语特征的半自动选取、自动选取与量化。虽然目前还不能对所有的书面言语特征进行半自动、自动选取与量化分析, 但该系统已明显降低了检验人员的工作量, 提高了检验效率, 为更好地得出鉴定意见提供了量化数据支持。

The authors have declared that no competing interests exist.

参考文献
[1] 王虹, 欧阳国亮, 刘旸菲. 司法语言学[M]. 北京: 中国人民公安大学出版社, 2015: 37-38. [本文引用:1]
[2] 岳俊发. 言语识别与鉴定[M]. 北京: 中国人民公安大学出版社, 2007: 203. [本文引用:1]
[3] 王虹. 书面言语特征及其量化选取与分析[J]. 中国刑警学院学报, 2015(1): 67-69. [本文引用:1]