用于假币溯源的海量电子物证快速处理方法
邹积鑫, 李世峰, 于健, 齐凤亮, 刘冠华
公安部物证鉴定中心,北京 100038

作者简介: 邹积鑫(1981—),男,黑龙江哈尔滨人,博士,副研究员,研究方向为假币检验和情报研判。 E-mail: 215115170@qq.com

摘要

目的假币犯罪扰乱经济秩序,损害百姓利益,给很多行业的安全稳健运行造成了极大威胁。使用彩色打印机等数字印刷设备的打印类假币犯罪,由于其操作简单、成本低、隐蔽性强、打印质量好等特点,正逐渐增多,发案区域呈扩散蔓延态势。打印假币的电子版是打击打印假币犯罪的关键,打掉假币电子版的源头,才能从根本上遏制打印假币犯罪的蔓延趋势。方法使用专业设备采集假币犯罪嫌疑人手机、个人电脑、U盘等电子设备及存储介质中的数据,首先计算这些电子类物证文件的哈希值,然后用计算机编程方法从大量数据中筛选查重,找出哈希值相同的文件,对筛选的少量结果分析,可以快速地追踪电子版假币的源头。结果对采集到的犯罪嫌疑人的数量庞大的电子文档材料,使用本文的方法快速筛选剔除了无用信息,支持了后续的寻找打印版假币的电子版源工作,为打击犯罪提供了重要依据。结论针对打印类假币犯罪的场景,本文的海量电子物证处理方法速度快效率高,具有重要的应用价值。

关键词: 假币溯源; 哈希值; 电子物证; 筛选
中图分类号:DF793.2 文献标志码:B 文章编号:1008-3650(2016)03-0240-04 doi: 10.16467/j.1008-3650.2016.03.016
Method to Fast Dispose Mass Electronic-evidence Data for Counterfeit Currency Tracing
ZOU Jixin, LI Shifeng, YU Jian, QI Fengliang, LIU Guanhua
Institute of Forensic Sciences, Ministry of Public Security of the People’s Republic of China, Beijing 100038, China
Abstract

Objective Counterfeit currency crimes tend to a growing trend. Although the large denomination of RMB is primarily the imitated target, the small ones of it have become increasingly arising, too. Because of the simple operation, low cost, concealment, print of quality and other characteristics, color printers or other digital printing equipment are the preferential choice for the criminals to fabricate the counterfeit currency. Therefore, the relational electronic version of the printed counterfeit money is the key clue to fight against counterfeit currency crimes. This paper attampts to establish a fast method to discover the valuable information from mass electronic-evidential data for counterfeit currency tracing.Methods With special equipment, the data were collected from cell phones, laptops, PCs, USB flash drives and other devices that were used to fake genuine currency by the suspects. The hash value, drawn from the above collected data, was calculated. A computer program was devised to find out the duplicate data of same hash value and merge into a file cluster. Through analyzing the screened file cluster, the source of electronic version of counterfeit currency was to trace back.Results The source of electronic version of counterfeit currency can be quickly tracked through picking out the key information and eliminating the useless one from the enormous electronic files. With the established method here, a specially momentous case has been given the crucial clue by exhumation of the source of evidence from different suspects.Conclusions The method to get hash value by fast disposing a large amount of electronic evidential data is of high efficiency and swift speed for analyzing the source of counterfeit currency.

Keyword: counterfeit currency tracing; hash; electronic material; screening

“ 情报导侦” 是侦查机关以强制力主导或依托而大量收集和利用情报信息, 以此来支持和推动侦查工作向信息化、精确化和资源集约化方向发展的全方位协同过程[1]。以打印方式制造假币[2], 具有设备少、技术简单、成本低廉的特点, 犯罪手法易于扩散, 近年来此种类型假币犯罪在全国不断蔓延; 在打击假币犯罪活动过程中, 积累了与犯罪嫌疑人相关的大量类型繁多、目录冗杂电子物证信息, 而国际上反假币研究集中于防伪技术[3], 如何处理和利用这些信息尚属空白。随着信息化的快速发展, 数据呈爆炸式增长, 大数据管理成为计算机领域研究的热点, 在云存储等商用领域针对存储有效性的重复数据删除技术已趋成熟[4, 5], 并向安全存储方向发展[6]。本文结合打印类假币犯罪的特点, 将重复数据删除的关键技术应用到海量电子物证的分析处理中, 通过编程计算文件哈希值、文件查重筛选, 剔除了海量数据中的大量无用信息, 为后续的假币溯源工作提供了有效支持。

1 假币信息筛选方法

在存储系统中, 重复数据删除技术通过对数据内容进行比对分析, 查找出冗余数据, 并将其元数据反馈给存储服务接口, 最后将不重复的数据存入到存储介质中[4]。按进行重复数据删除操作粒度的差异, 可以分为文件级、块级和字节/比特位级重复数据删除[5]。全文件检测(WFD)属于文件级的重复数据删除技术。如图1所示, WFD方法选取抗冲突性高的哈希算法, 以文件的哈希值作为指纹, 在文件哈希库中寻找相同匹配, 对重复文件按策略做进一步处理。

图1 全文件检测技术Fig.1 The illustration of whole file detection technique

对于打印版假币犯罪活动, 调查发现其犯罪网络中有专门提供高质量假币电子版源和假币技术支持的人员, 并对电子版进行不断改进; 犯罪分子往往通过互联网QQ群传授制作假币技术和进行假币电子版传输, 下家再购置打印机和纸张, 继而实施犯罪活动。从收缴采集的不同地方犯罪分子的电子物证中寻找可能存在的相同假币电子版, 将成为证实犯罪手法传播扩散的有力证据。

重复数据删除的关键技术是进行信息筛选的重要依据, 本研究采用文件级的重复检测技术确定相同的假币电子版文件, 并同时解决实际操作中的问题。图2展示了假币信息筛选方法对情报导侦的支撑作用。静态的数据经过方法的相关处理得到有意义的、具有导向作用的“ 情报” , 支持办案人员及时有效地了解假币犯罪走向、为串并案提供有力线索和依据, 准确发布防范预警信息。假币信息筛选方法的流程如图3

图2 由数据到“ 情报” Fig.2 The flow route from data to intelligence

图3 方法的流程Fig.3 The roadmap of screening the information involving with counterfeit currency

2 方法的实现

电子物证的采集是一项重要工作, 是挖掘有效信息的基础。犯罪嫌疑人在实施犯罪活动的整个过程中通常会在其所使用的电子设备包括手机、电脑及存储设备上留下大量信息。假币犯罪中多数嫌疑人或多或少都有一定的反侦查能力, 往往会删除、格式化在自有设备上的留存信息。采集电子物证就需要一些专业的设备和专业的数据恢复软件。手机数据可以使用便携式设备现场采集, 对其他设备通常会收缴物理存储使用更专业的软硬件采集, 往往用到数据恢复软件。在Windows操作系统下的数据恢复软件中, X-Ways Forensics作为法证专业软件在相关领域已经广泛应用, 软件本身禁止对物证存储做编辑和修改, 保证了数据的原始性和完整性[7]。本文的方法是使用这款数据恢复软件采集嫌疑人的设备存储信息, 对每一单个嫌疑人独立建档, 采集的数据按照原文档目录结构存储在一个文件目录下。单个嫌疑人一般有数十GB的数据。

2.1 电子物证数据的初始处理

数据采集完成后, 多个嫌疑人的数据存储在不同的文件目录下。首先对这些电子物证作初始化处理, 以文件哈希值标识文件。哈希算法将任意长度的二进制值映射为固定长度的较小二进制值, 这个小的二进制值称为哈希值。哈希值是一块数据的唯一且紧凑的数值表示形式。一个文件小到一个字母的变化, 都会改变该文件的哈希值, 这个特点很适用于假币电子版分析。不同嫌疑人数据记录的差异可以在文件级通过计算哈希值来区分。计算文件的哈希值有多种算法, 如常见的MD5及SHA-1算法。本文设计了深度优先遍历算法, 访问目录下所有文件, 为文件编号并计算每个文件的MD5码, 以文件编号、文件名、文件路径、文件哈希值的行数据格式把结果保存在一个文件中。经过初始化的处理, 从原始的数据得到存储了中间结果的单个文件。

2.2 电子物证数据的筛选查重

海量数据去重的目标是除去数据冗余, 本文将重复数据当作资源。筛选查重的处理分为两个步骤:第一步对初始化后的数据进行有序化处理, 这能极大提高筛选的速度和效率; 第二步是筛选。有序化处理依照文件的哈希值进行, 处理方法可参考海量字符串数据的排序, 这里不再赘述。排序的结果是数万行的所有文件信息, 哈希值相同的文件行相邻。如图4所示, 筛选处理需要自动地找出那些哈希值相同的文件。

图4 筛选处理示意Fig.4 Schematic diagram of screening the files of same hash value

本文设计的筛选方法在算法1中给出。经过逐行读取中间结果文件信息, 找出哈希值相同的文件并划分群簇, 查重与划分的结果保存在结果文件中。办案人员可对仅有少量数据的结果文件简单分析, 得出相应结论。

算法1

输入:有序完整目录文件信息

输出:筛选后的文件信息

1: ifstreamifile(filepath.c_str());

2: getline(ifile, s);

3: struct_a← s; //读一行数据, 放入结构体中

4: while(getline(ifile, s))

5: {

6: struct_b← s;

7: if(!strcmp(struct_a.Value_MD5, struct_b.Value_MD5))

8: {

9: struct_a← struct_b;

10: continue;

11: }

12: else //哈希值相同时

13: {

14: counter++;

15: 输出counter, struct_b;

16: while(getline(ifile, s)){

17: struct_b← s;

18: if(strcmp(struct_a.Value_MD5, struct_b.Value_MD5))

19: {

20: 输出struct_b;

21: continue;

22: }

23: else

24: {

25: 输出struct_a;

26: struct_a← struct_b;

27: break;

28: }

29: }

30: }

31: }

3 案例及应用

在某假币犯罪专案中采集到广东、湖北、山东、浙江、四川等5个省的6个地区犯罪嫌疑人原始数据文件63.2GB, 共包含3120个文件夹的87928个文件。如图5, 采集的数据按照地区放置于不同的文件夹下。

图5 案例电子物证数据Fig.5 Electronic evidential data of a case

经过对这些电子物证的初始化处理和筛选处理, 得到如图6的结果, 上为遍历文件目录计算所有文件哈希值的结果, 下为筛选处理的结果, 从8万多行数据中筛选得到204组哈希值相同文件。

图6 初始处理(左)和筛选处理(右)结果Fig.6 Disposing the captured initial data (left) and filtrating the files of same hash value (right)

打印类假币犯罪具有独有的特点, 不同犯罪嫌疑人间的相同数据包含了有效的导向信息, 特别是图片类型文件和打印设备的设置文件。图7截取了部分结果文件, 从中可以找到来源于不同目录的具有相同哈希值的jpg文件, 由此可以确定广东与浙江嘉兴为相同假币电子版源。

图7 结果中的同源Fig.7 The files owning identical source

经过分析结果中的图片及打印机设置文件, 结合文件检验方法[8], 最终确定了湖北咸宁、广东深圳、山东烟台三大假币的电子版源, 证实了潍坊与嘉兴的假币电子版来自广东, 湖北与浙江的假币犯罪存在潜在联系, 这为进一步打击犯罪发挥了重要作用。

信息化是打击假币类犯罪的有力工具, 也是国际上反假币斗争的发展趋势[9]。针对打印类假币犯罪的场景, 海量电子物证处理方法速度快效率高, 具有重要的应用价值。

The authors have declared that no competing interests exist.

参考文献
[1] 王彦学. 论“情报导侦”之意涵[EB/OL]. [2014]http://opinion.cpd.com.cn/n20833671/n21145748/c21172438/content.html. [本文引用:1]
[2] 潘隽, 范卫红, . 反假与防伪[M]. 北京: 中国金融出版社, 2009: 141-143. [本文引用:1]
[3] Bae HJ, Bae S, Park C, et al. Biomimetics: biomimetic microfingerprints for anti-counterfeiting strategies[J]. Advanced Materials, 2015, 27(12): 2123-2123. [本文引用:1]
[4] 敖莉, 舒继武, 李明强. 重复数据删除技术[J]. 软件学报, 2010, 21(5): 916-929. [本文引用:2]
[5] 付印金, 肖侬, 刘芳. 重复数据删除关键技术研究进展[J]. 计算机研究与发展, 2012, 49(1): 12-20. [本文引用:2]
[6] Stanek J, Sorniotti A, Androulaki E, et al. A secure data deduplication scheme for cloud storage. Financial Cryptography and Data Security, 2014: 99-118. [本文引用:1]
[7] X-Ways Forensics[EB/OL]. [2015-08-10], http://www.x-ways.net/winhex/manual.pdf. [本文引用:1]
[8] 梁鲁宁, 林雷祥, 苏丽, . 机制版假币票面上印刷疵点的检验[J]. 刑事技术, 2012(6): 31-34. [本文引用:1]
[9] John Zeng Wang. Forensic technology of the 21st century: Portability, digitability, and quantitability[C]//第二届国际法庭科学大会论文集. 2011: 22-23. [本文引用:1]