应用聚类分析方法串并案件的距离计算问题研究
唐宇
红原县公安局,四川 红原 624400

作者简介:唐宇(1987—),男,四川遂宁人,学士,助理工程师,研究方向为现场勘查学、现场分析与重建。E-mail:2035117050@qq.com

摘要

聚类分析方法应用到串并案件中,采用何种距离计算形式是需要解决的基本问题。通过理论分析选择Jaccard系数和余弦相似度两种距离计算形式,使用参考模型与聚类结果比较的性能度量方法,对两种距离计算形式进行对比研究,发现基于该两种距离计算形式的聚类结果与参考模型一致,得出应用聚类分析方法串并案件可以使用Jaccard系数和余弦相似度两种距离计算形式的结论。

关键词: 串并案; 聚类分析; 距离计算; Jaccard系数; 余弦相似度
中图分类号:DF793.5 文献标志码:A 文章编号:1008-3650(2018)02-0123-07
Distance Computing by Cluster Analysis for Joint Investigation
TANG Yu
Hongyuan County Public Security Bureau, Hongyuan 624400, Sichuan, China
Abstract

Distance computing is a basic problem when cluster analysis has been applied into joint investigation. Usually, Jaccard coefficient and cosine similarity are the two ways for distance computing. In this paper, the reference model was compared with the result of cluster analysis based on the handling of Jaccard coefficient and/or cosine similarity, showing that the result of cluster analysis is the same as that of reference model. Therefore, both Jaccard coefficient and cosine similarity can be used into cluster analysis for joint investigation.

Key words: joint investigation; cluster analysis; distance computing; Jaccard coefficient; cosine similarity

聚类试图将数据集中的样本划分为若干个通常是不相交的子集, 每个子集称为一个簇。通过这样的划分, 每个簇可能对应于一些潜在的概念(类别), 这些概念对于聚类过程而言事先是未知的。聚类结果的簇内相似度高且簇间相似度低[1]。串并案分析是根据一些案件的相同或相似特征在现场分析的基础上判定是否可能为同一犯罪主体所为, 分析的根据是作案手法的独特性和相对稳定性[2]。因为作案手法有独特性, 不同的犯罪主体所作案件的案件特征相似性小, 对应于聚类结果的簇间相似度低。因为作案手法有相对稳定性, 同一犯罪主体所作系列案件的案件特征相似性大, 对应于聚类结果的簇内相似度高。从理论上讲, 可以通过聚类分析对案件进行串并。

程琳采用SOM网络模型对20例侵财案件进行聚类分析, 得出的结果仅作为参考依据, 串并案件的分析判断仍然需要结合刑侦干警的长期办案经验[3]。夏颖等通过构建相异度矩阵进行层次聚类分析方法作出的聚类分析结果进行串并案, 需要通过目测了解聚类是否具有合理性, 再进行下一步的再处理[4]。韩宁等通过使用原子特征词词典和关键词相似度加权计算模型构建特征向量空间, 通过FCM聚类算法进行聚类分析, 提供的聚类结果可供侦查人员在缩小的案件范围内进行串并案分析[5]。目前对于聚类分析在串并案件中的研究集中于对聚类算法的应用研究, 缺乏对聚类算法涉及的两个基本问题— — 性能度量和距离计算的研究。需要通过某种性能度量评估聚类结果的好坏, 并且明确了最终使用的性能度量, 可以直接将其作为聚类过程的优化目标[1]。聚类性能度量可以将聚类结果与某个参考模型进行比较。参考模型可以采用应用领域内明确的划分结果。距离计算对于聚类算法的过程十分重要, 直接影响着算法的有效性。聚类分析在串并案件中具体采用何种距离计算形式, 需要将不同距离计算形式所得聚类结果与参考模型进行比较并评估其好坏。

1 参考模型

在现场分析的基础上, 使用基于逻辑推理的串并分析, 通过对相似度进行评分, 得出最终的串并案结论, 与破案结果比较, 确定参考模型, 并使用无向图表示。

1.1 现场分析

一号现场:2016年1月4日(星期日), 县城某研究所工作人员报案称该研究所办公室及住宿间被盗。办公室及住宿间(只有卧室)所在的大楼第一层玻璃双开大门链条锁完好, 大门在不解下锁的情况下可以打开一条供较瘦的人侧身通过的缝, 经现场试验该缝需要另一人协助才可以保持侧身通过开启度。该大楼被盗办公室及住宿间门锁均完好, 窗户均被拉开, 房间内所有抽屉、柜子、箱包、纸箱被翻动。大楼后面到后门有两趟平行的成趟雪脚印, 一趟足尖背离后门的脚印消失于该研究所一排平房旁围栏, 一趟足尖朝向后门的脚印由该大楼一楼一端窗户延伸至后门所在围墙。后门整体及锁完好。被盗物品为望远镜、放大镜、短刀及现金。经调取该研究所监控录像, 由脚印消失的那排平房前的监控发现2016年1月3日13 时 23 分, 两名可疑人员自脚印消失处围栏经过平房前空地。该研究所被盗大楼附近无监控, 研究所大门监控未显示该两名可疑人员出入, 其中一名可疑人员右脚有残疾。现场访问未发现其他可疑情况。分析作案人人数为2人, 身高一为160~170 cm, 一为170~180 cm, 身材均较瘦, 较矮的人右脚有残疾, 年龄为12~18岁。

二号现场:2016年3月26日(星期六), 县城某局工作人员报案称其在该局住宿区的家中被盗。该住户为独立院落, 院门上有攀爬痕迹。该住户用来分割煤炭的斧头被嫌疑人由柴火棚移动至客厅沙发上, 斧头旁的沙发扶手上即为充电的手机和平板电脑(已被盗)。厨房、储物间未发现明显翻动痕迹。客厅内电视柜、两卧室内衣柜、床头柜抽屉、床靠背暗柜均被翻动。手提包、挎包内物品均被翻出。被盗物品为现金、平板电脑、手机、香烟。现场访问获知, 该住户离开家时有两名可疑人员进入该局院坝内, 该住户离开家前接听一通电话, 起始时间为15 时 37分, 回到家发现被盗后电话报警, 报警时间为16 时 8 分。分析作案人人数为2人, 身高一为160~170 cm, 一为170~180 cm, 身材均较瘦, 年龄为12~18岁。

三号现场:2016年4月2日(星期六), 县城某社区住户报案称其在该社区的家中被盗。该住户为独立院落, 院门上有攀爬痕迹, 院门挂锁被破坏。院内房屋大门完好, 窗户被拉开, 厨房、经堂未发现明显翻动痕迹。经堂内有一张在本地区有影响力的活佛照片。客厅、卧室、储物间内衣柜、床头柜抽屉、床靠背暗柜、立柜抽屉均被翻动。被盗物品为现金、银元、平板电脑。现场访问获知, 该住户离开家前接听一通电话, 起始时间为15 时 4 分, 回到家发现被盗后电话报警, 报警时间为17 时 2 分, 回到家后发现院门从里面被反锁, 该住户由院墙翻至院内开门。分析作案人人数为2人, 身材较瘦, 1人为170~180 cm, 一人较矮或腿脚不便, 应全部为青少年(12~25岁), 且部分或全部为信奉某活佛的藏族。

四号现场:2016年4月9日(星期六), 县城某单位工作人员报案称其单位办公室被盗窃。该单位办公室位于2楼, 与楼梯连接处由铝合金推拉门隔开, 该推拉门门锁被破坏, 楼梯入口处有卷帘门。2楼厕所发现攀爬痕迹, 厕所外有市政工程所搭脚手架。办公室门为玻璃门及防盗门的均未发现撬锁痕迹, 办公室门为木门的均被破坏, 破坏方式分别为踹开和撞开。进入的其中一间办公室内茶几上发现一枚灰尘足迹。进入的办公室内办公桌抽屉及立柜均被翻动。被盗物品为零食、耳机、签字笔。现场访问获知, 该办公室多名人员自称于12 时许到过办公室, 此时一切完好。到达办公室后发现被盗, 电话报警时间为15 时 27 分。分析作案人有2人或2人以上, 其中一名作案人身高为160~170 cm, 一名作案人为170~180 cm, 均较瘦, 一人腿脚无力或不便, 应全部为青少年(12~25岁)。

五号现场:2016年4月9日(星期六), 县城某局工作人员报案称其在该局住宿区的家中被盗。该住户为一排平房中一间, 正门为防盗门, 正门旁窗户被打开, 窗户有防盗栅栏。后门为木门, 靠近锁体处有一片木板被破坏。客厅及卧室有翻动痕迹, 厨房无明显翻动痕迹。被盗物品为现金、香烟。其放置于家中的红色挎包在现场搜索时发现于平房后围墙外另一单位的厕所屋檐上, 经勘查确认为作案人逃跑路线。逃跑路线附近围墙外墙根处发现一串钥匙, 经事主辨认非其钥匙。现场访问获知, 该住户于16 时 14分离开家, 17 时 2 分接到邻居电话称其家中被盗。离开家时发现有三名中学生模样的人在该局院内闲逛, 是X中学的学生。经调取相关监控视频发现, 作案人员有4名, 2人身高为160~170 cm, 其中一人右脚不便, 2人身高为170~180 cm。分析作案人年龄均在12~18岁。

六号现场:2016年4月17日(星期日), 县城某社区住户报案称其在该社区的家中被盗。该住户为独立院落, 院门无攀爬痕迹, 院墙有攀爬痕迹。院内房屋大门完好, 客厅窗户玻璃被砸烂。客厅墙角处有残缺灰尘减层足迹。客厅、卧室被翻动, 厨房、经堂未发现明显翻动痕迹。经堂内有一张在本地区有影响力的活佛照片。被盗物品为念珠、游戏机、充电宝。现场访问获知, 该住户离开家时间为13 时 23 分, 回到家时间为17 时 40 分。分析作案人人数为2人, 一人身高为160~170 cm, 一人身高为170~180 cm, 均较瘦, 应全部为青少年(12~25岁), 且部分或全部为信奉某活佛的藏族。

1.2 串并分析

串并案的条件有:案件性质相同或相近、发案时段有规律、发案地点相同或相似、周围环境相同或相似、作案手段(包括作案工具种类及其使用方式)相同或相似、侵害目标相同或相似、案件之间的某种关联、人身特征相同或相似、作案人数大体相同、痕迹物证(包括作案工具痕迹)相同或相似[6]。六个案例串并案条件见表1。.

表 1 串并案条件 Table 1 Conditions of joint investigation

六处现场案件性质均为盗窃案。发案时段均为双休日下午。发案地点均在室内。六处现场周围环境如果仅从环境名称来看一、四号现场相同, 二、五号现场相同, 三、六号现场相同。但考虑到无论是单位办公区、单位住宿区、独立院落均有围墙作为相对隔离, 因此, 可以认为六处现场周围环境均相似。

一、二、三、四、六号现场侵入方式均有翻越行为, 五号现场因该单位大门开启, 且案发现场为平房, 现场条件决定了侵入方式不会有翻越行为。四、五、六号现场侵入方式中增加了破坏门窗行为, 且门窗被破坏部位均为现场进出口。因此, 从侵入方式角度来说, 一、二、三号现场作案手段相似, 四、五、六号现场作案手段相似。六处现场寻找侵害目标方式均有翻找行为。翻找了办公室的有一、四号现场, 翻找了卧室的有一、二、三、五、六号现场, 翻找了客厅的有二、三、五、六号现场, 未翻找厨房的二、三、五、六, 未翻找经堂的有三、六号现场, 翻找部位均包含抽屉、柜子。说明作案人主观认识上认为抽屉、柜子内有侵害目标, 而抽屉、柜子又普遍集中在办公室、卧室、客厅等处所。案发地属于藏区, 藏区风俗习惯是藏族家中均会设置经堂, 经堂内均有展示立柜, 展示立柜里会放置有若干市场价格高的宗教用品。经堂没有翻找, 可以认为作案人因为宗教观念, 主观上回避了对经堂的翻找。因此, 从寻找侵害目标方式来说, 六处现场作案手段相似, 三、六号现场可以进一步认为相同。

六处现场的侵害目标价值无论是不同现场间还是同一现场内均有高有低, 但从携带条件来看, 所有侵害目标体积都不大, 单手或衣服兜就可以携带。因此, 可以认为六处现场侵害目标相似。

三、六号现场经堂内均有一张在本地区有影响力的活佛照片, 并且是同一位活佛的照片。藏传佛教有一个特点, 就是一个教派内的不同信教地区会信仰不同的活佛。结合初步判断作案人应该在县城居住, 分析作案人员应该居住在县城的两个村内。因此, 三、六号现场有作案人居住地关联。五号现场作案人逃跑路线附近围墙外墙根处发现一串钥匙, 其中两把钥匙贴有白色布制胶布, 胶布上有黑墨写的房间号编号。现场勘查人员记起与四号现场两间办公室门门牌号相同, 随即由四号现场办公室工作人员对钥匙进行辨认确认为四号现场办公室钥匙。因此, 四、五号现场有作案人全部或部分相同关联。

年龄为12~18岁的为一、二、五号现场, 年龄为12~25岁的为三、四、六号现场。因此, 从年龄角度来说, 六处现场人身特征相似。六处现场中均有身高为170~180 cm的作案人, 一、二、四、五、六号现场均有身高为160~170 m的作案人, 三号现场依据现场条件判断有一身高比170~180 cm矮的作案人, 与身高160~170 cm特征相似。因此, 从身高角度来说, 六处现场人身特征相似, 一、二、四、五、六号现场可以进一步认为相同。一、二、三、四、六号现场均显示作案人身材较瘦, 五号现场因现场条件限制, 无法有效判断作案人身材。因此, 从体态角度来说, 一、二、三、四、六号现场相似。一、三、四、五号现场均有作案人腿脚不便的特征反映, 二、六号现场无法显示作案人腿脚是否不便。因此, 从特殊特征来说, 一、三、四、五号现场相似。

一、二、三、六号现场作案人数均为2人, 四号现场为2人及以上, 五号现场为4人。因此, 一、二、三、六号现场相似。

一号现场的雪脚印由2名作案人形成, 形成后被雪覆盖, 只能测量脚长、前掌宽和后掌宽。四号现场的灰尘足迹完整有花纹, 是市售运动鞋通用花纹, 同时测量了脚长、前掌宽和后掌宽。六号现场为残缺灰尘减层足迹, 花纹不明显, 可以测量脚长和前掌宽。四号现场灰尘足迹的脚长、前掌宽和后掌宽与一号现场的其中1名作案人形成的雪脚印的脚长、前掌宽和后掌宽长度接近, 六号现场残缺灰尘减层足迹的脚长和前掌宽与一号现场的另1名作案人形成的雪脚印的脚长和前掌宽长度接近。因此, 一、四号现场相似, 一、六号现场相似。

1.3 串并结论

10个串并案条件, 每个条件按总分10分评分, 总共100分, 最终相似度按得分多少进行比较。其中, 某个条件内有多个子条件的, 子条件先以总分10分评分, 并按子条件数折算后计入该条件总分。不同记0分, 相似记5分, 相同记10分。串并案件应该保证相似度大于差异度, 也就是说两个现场相似度评分大于50的认为可以串并。据此可将六个现场全部串并, 具体见表2

表 2 相似度评分表 Table 2 Scores by similarity
1.4 破案证实

破案后证实, 一号现场为甲、乙作案现场, 二号现场为甲、乙作案现场, 三号现场为甲、乙作案现场, 四号现场为甲、乙、丙作案现场, 五号现场为甲、乙、丙、丁作案现场, 六号现场为甲、乙作案现场。(因犯罪嫌疑人系未成年人, 故用甲、乙、丙、丁代替。)

1.5 确定模型

以该串并案案例为参考模型, 为便于聚类分析结果与参考模型比较, 采用无向图进行直观比较。参考模型无向图如图1所示。

图1 参考模型无向图Fig.1 Undirected graph of reference model

2 距离计算

在现场分析的基础上, 使用基于聚类分析的串并分析, 从理论上分析将聚类分析应用到串并案件中适宜采用哪些距离计算形式, 并采用适宜的距离计算形式, 得出使用无向图表示的最终串并案结论。

2.1 聚类模型

形式化地说, 假定样本集D={x1, x2, …, xm}包含m个无标记样本, 每个样本xi={xi1; xi2; ...; xin}是一个n维特征向量, 则聚类算法将样本集D划分为k个不相交的簇{Cl |l = 1, 2, …, k}, 其中Cl’ Ç l’ lCl= Ø 且D = È kl=1Cl。相应地, 我们用λ j∈ {1, 2, ..., k}表示样本xj的“ 簇标记” (cluster label), 即xjCλ j。于是, 聚类的结果可用包含m个元素的簇标记向量λ =(λ 1; λ 2; ...; λ m)表示。

2.2 向量空间

聚类分析时, 串并案条件的选择有二个原则:一是案件之间存在确切的案件关联, 案件的痕迹物证可以同一比对, 案件的相似度便是100%, 无法将100%相似度体现在特征向量空间中, 只能作结果修正; 二是对待聚类案件中均相似的串并案条件, 因该项串并案条件仅支持可以串并结论, 使得聚类结果趋向于分为1个簇, 故不予选择, 不选择的同时可以减少计算量。

向量类型选择:案件特征存在范围值, 需要分段处理, 采用在该段范围标记为1, 不在该段范围标记为0的方式。案件特征存在是或否的二元化特征, 按是标记为1, 否标记为0。标记只存在1、0, 所有维度数据均落在正半轴上, 减小数据点稀疏性。对参考模型进行分析, 从发案时段、发案地点、周围环境、作案手段、人身特征、作案人数等6个串并案条件中, 挑选出发案时间、发案地点、周围环境、侵入方式、寻找方式、年龄、身高、体态、特殊、作案人数等10个案件特征, 进一步二元化后得到21维布尔向量(双休日下午, 室内, 单位办公区, 单位住宿区, 独立院落, 翻越, 破坏, 客厅翻动, 卧室翻动, 厨房翻动, 经堂翻动, 办公室翻动, 12~18岁, 18~25岁, 160~170cm, 170~180cm, 较瘦, 腿脚不便, 2人, 3人, 4人), 缺失数据作0处理, 具体见表3

表 3 二元特征变量表 Table 3 Binary characteristic variables
2.3 计算形式

距离计算形式主要包括度量距离和非度量距离两大类。度量距离用于衡量特征向量空间中各数据点之间存在的距离。度量距离主要包括欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离、汉明距离、Tanimoto系数、Jaccard系数、皮尔逊相关系数、余弦相似度、调整余弦相似度。非度量距离是非度量的语义属性, 与数据样本语义相关, 不具有通用性。在高维数据中, 特征向量空间中各数据点之间的密度趋于平均, 距离趋于相等, 大部分适用于低维数据的距离计算形式无法直接应用到高维数据[7] 。闵可夫斯基距离是(包括欧式距离、曼哈顿距离、切比雪夫距离)忽略了不同维的差异和不同维的各对象的分布差异, 同时在高维数据距离趋于相等的趋势下无法有效区分各对象相似度差异。马氏距离会夸大对象的弱特征, 可能造成计算出的相似度较实际情况偏高。汉明距离等于一个n(单词长度)维的超立方体上两个顶点间的曼哈顿距离, 同样受高维数据距离趋于相等影响。Tanimoto系数在二元属性情况下归约为Jaccard系数。Jaccard系数只关心个体间共同具有的特征是否一致这个问题。皮尔逊相关系数度量两个数据点之间的相关程度。余弦相似度只能分辨个体在维之间的差异, 没法衡量每个维数值的差异。调整余弦相似度修正了余弦相似度对数值的不敏感导致的结果误差。特征向量空间向量类型为高维布尔向量, 可采用Jaccard系数和余弦相似度这两种距离计算形式。

2.4 Jaccard系数

Jaccard系数计算两个向量都是1的维度的个数占两个向量所有是1的维度个数的比例。两个向量都是1的维度的个数等于两个向量所有是1的维度个数时, Jaccard系数的值为1; 两个向量都是1的维度的个数是0时, Jaccard系数的值为0。设j为Jaccard系数值, a、b是两个n维向量, p为向量a、b都是1的维度的个数, q为向量a是1而b是0的维度的个数, r为向量a是0而b是1的维度的个数, 则Jaccard系数计算公式为:

$j=\frac{p}{p+q+r}$ (1)

以Jaccard系数计算结果大于0.5作无向图见图2。使用案件关联串并案条件(五号现场发现四号现场钥匙), 对结果进行修正。修正的Jaccard系数无向图与参考模型无向图相同, 见图3。

图2 Jaccard系数无向图Fig.2 Undirected graph of coefficient

图3 修正的Jaccard系数无向图Fig.3 Undirected graph of corrected Jaccard coefficient

2.5 余弦相似度

余弦相似度通过计算两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时, 余弦相似度的值为1; 两个向量夹角为90° 时, 余弦相似度的值为0。设cosθ 为余弦值, (x1, x2, …, xn), (y1, y2, …, yn)表示两点坐标, 则余弦相似度计算公式为:

以余弦值大于等于0.71(cos45 ° )作无向图见图4。使用案件关联串并案条件(五号现场发现四号现场钥匙), 对结果进行修正。修正的余弦相似度无向图与参考模型无向图相同, 见图5。

图4 余弦相似度无向图Fig.4 Undirected graph of cosine similarity

图5 修正的余弦相似度无向图Fig.5 Undirected graph of corrected cosine similarity

3 结果与讨论

对参考模型无向图与修正的Jaccard系数无向图、余弦相似度无向图进行比较, 得出如下结果。

3.1 最终结果

可以看出参考模型无向图、修正的Jaccard系数无向图、修正的余弦相似度无向图这三张图是完全一样的。也就是说, 基于Jaccard系数和余弦相似度两种距离计算形式的串并案分析结果与基于逻辑推理的串并案分析结果完全一致, 与破案证实的结果也是一致的。

3.2 聚类阈值

结合表4和表5可以看出, Jaccard系数作为聚类阈值的0.5对应于余弦相似度的0.67, 小于余弦相似度聚类阈值, 也就是Jaccard系数在维度数增长到一定数量时得到的聚类结果数据点会多于余弦相似度得到的聚类结果数据点。基于Jaccard系数的聚类算法在维度数增长到一定数量时, 需控制维度数或进行某种修正才能保证其准确性。

3.3 算法时间

余弦相似度准确性较高, 但计算量较Jaccard系数多, 数据点增长到一定数量时会严重影响算法时间。Jaccard系数计算量较余弦相似度少, 但在维度增长到一定数量时, 控制维度数或进行某种修正的算法也会对整体的算法时间产生影响。

4 结论

如何构造特征向量空间和如何设计聚类过程及聚类算法是应用聚类分析方法串并案件需要解决的问题。解决上述两个问题需要在解决聚类算法涉及的性能度量和距离计算这两个基本问题的基础上开展研究工作。构造特征向量空间的问题的研究, 基于本文的研究, 目前可以明确特征向量采用布尔向量, 各个维度采用二元化的案件特征, 而如何进行特征选取是解决构造特征向量空间问题需要进行的下一步研究工作, 但是特征选取又会对阀值如何确定产生影响, 故而同时需要研究特征选取对阀值确定产生的影响。如何设计聚类过程及聚类算法的问题的研究, 需要对聚类过程如何设计, 以及聚类过程的不同阶段中聚类算法如何进行选择进行研究。

4.1 性能度量

通过与串并案件研究中已有的分析方法做对比, 并与破案结果作对照, 可以明确优化目标与方向。

4.2 距离计算

基于本文的研究, 可以使用Jaccard系数和余弦相似度两种距离计算形式。

4.3 特征选取

哪些案件特征能反映作案手法的独特性和相对稳定性, 是串并案研究的重要问题, 也是聚类分析方法应用到串并案件中如何构造特征向量空间的问题。特征向量空间维度越能反映作案手法的独特性, 就越能降低数据点的簇间相似度, 特征向量空间维度越能反映作案手法的相对稳定性, 就越能提高数据点的簇内相似度, 聚类分析的结果也就能更加准确。具体来讲, 可以采用某种合适的投影方法, 将高维数据投影到低维数据空间, 并做到降低数据点的簇间相似度并提高数据点的簇内相似度; 寻找衡量特征重要性的方法, 量化后就是各特征值的权重计量方法, 通过含有权重的距离计算, 可以更好的反映各数据点的相似程度; 对于存在相关性的特征, 可以通过将一个特征分解为多个不相关的布尔向量, 或者多个特征聚合为一个布尔向量的方式, 减小有相关性的特征对聚类结果的影响; 通过获得更多的数据提高聚类分析结果与案件事实的吻合度, 包括但不限于在法医检验、痕迹检验、理化检验、文件检验、影像技术、声纹检验、电子物证检验、心理测试等物证鉴定学科中寻找可以作为串并案条件的相关内容, 以此提取更多案件特征数据用于聚类分析。最终的特征选取, 需要综合解决以上四个方面问题, 得出构造特征向量空间的一般方法。

4.4 阈值确定

本文为了方便对距离计算形式作比较研究, 两种距离计算形式采用与参考模型对应的阈值进行比较, 避免阈值不同对聚类结果产生差异进而影响研究结果。实际工作中如何确定阈值, 需要在确保与案件事实一致的前提下, 选择既能保证数据点的簇间相似度低又能保证数据点的簇内相似度高的阈值。阈值的确定要考虑到以下四个方面问题。首先, 需要考虑到作案手法的独特性可能因现场环境限制而显得独特, 即过于夸大的独特性, 合适的阈值应能减小这种过于夸大的独特性对聚类结果产生的影响; 其次, 需要考虑到作案手法的相对稳定性与相同类别案件的相同或相似案件特征的区别, 即虚假的相对稳定性, 合适的阈值应能消除这种虚假的相对稳定性对聚类结果产生的影响; 再次, 需要考虑到对于某一个已有的串并案模型而言, 合适的阈值可能不是一个数值, 而是在某个数值区间内, 要有计算阈值数值区间的算法; 最后, 需要考虑到利用一个地区已有的串并案模型, 先计算已有的串并案模型的阈值数值区间, 再分析各个串并案模型的阈值数值区间重叠区域, 以此确定该地区的合适的阈值。

4.5 聚类过程

聚类过程可以分两个阶段进行。第一阶段是对某些串并案条件进行分析, 挑选案件特征, 并二元化为布尔向量, 采用Jaccard系数对待串并案件进行初步聚类。第二阶段是分析某一簇内所有案件的串并案条件, 挑选案件特征二元化为布尔向量, 采用余弦相似度进行聚类。

4.6 聚类算法

针对聚类过程的两个阶段, 聚类算法选择有三个因素的影响。一是因为选择的串并案条件有差异, 导致构造的特征向量空间有差异, 聚类算法的选择上有差异。二是因为选择的距离计算形式有差异, 确定的阈值有差异, 聚类算法的选择上有差异。三是不同聚类算法的运行时间有差异, 需要大量串并案件模型进行性能度量, 确定最优算法。

The authors have declared that no competing interests exist.

作者已声明无竞争性利益关系。The authors have declared that no competing interests exist.

参考文献
[1] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 197-198. [本文引用:2]
[2] 骆建新, 张智勇. 案件串并工作浅析[J]. 河南公安高等专科学校学报, 2010, 19(6): 123. [本文引用:1]
[3] 程琳. SOM网络模型在刑事案件并案侦查中的应用[J]. 计算机与数字工程, 2009, 37(11): 95-98. [本文引用:1]
[4] 夏颖, 王哲, 程琳. 聚类分析在犯罪数据分析中的应用[J]. 合肥工业大学学报: 自然科学版, 2009, 32(12): 1924-1927. [本文引用:1]
[5] 韩宁, 陈巍. 基于聚类分析的串并案研究[J]. 中国人民公安大学学报: 自然科学版, 2012(1): 53-58. [本文引用:1]
[6] 张建根, 沈建良, 于奎栋. 浅析科学串并案件的条件与方法[J]. 警察技术, 2006(3): 53-54. [本文引用:1]
[7] 康永为. 大数据环境下高维数据处理若干问题[D]. 桂林: 广西师范大学, 2013: 14. [本文引用:1]