录音资料真实性鉴定的频谱检验技术研究
申小虎1, 金恬2, 张长珍1, 万荣春1
1. 江苏警官学院刑事科学技术系,南京210031
2. 江苏省公安厅物证鉴定中心,南京210031

第一作者简介:申小虎(1981—),男,山东青州人,硕士,工程师,研究方向为语音信号处理、视听资料检验。E-mail:shenxiaohu@jspi.cn

摘要

目的 研究无数字水印技术的数字音频文件篡改手段以及找到对语音样本进行鉴定的频谱分析方法和规律。方法 分析研究数字音频文件篡改方法的基本原理,使用专业语音分析系统软件的平均频谱分析、区域平均频谱对比、采样直方图分析、DC偏移检验、相位分析、采样一致点分析等频谱分析功能对篡改后的音频文件进行分析并找到规律。结果 针对音频文件的剪辑、拉伸、采样率转码、变频等篡改手段,可选择上述相应频谱分析方法找到篡改痕迹。结论 频谱分析方法可作为录音资料真实性鉴定的有效检验手段。

关键词: 录音资料; 真实性鉴定; 频谱检验
中图分类号:DF793.2 文献标志码:A 文章编号:1008-3650(2017)03-0173-05 doi: 10.16467/j.1008-3650.2017.03.001
Application of Spectrum Analysis to Verify the Authenticity of Recorded Audio Data
SHEN Xiaohu1, JIN Tian2, ZHANG Changzhen1, WAN Rongchun1
1. Department of Forensic Science and Technology, Jiangsu Police Institute, Nanjing 210031, China
2. Evidence Identification Center, Jiangsu Provincial Public Security Bureau, Nanjing 210031, China
Abstract

Objective To verify the ploys by which non-digital-watermarking digital audio files are tampered so as to discover the methods and rules to identify forensic audio samples through analysis of frequency spectrums.Methods The fundamental principle of how to tamper digital audio files was researched with technical analyses of average spectrum, regional average spectrum, sampling histogram, DC offset, phase analysis, coincident sampling points, those presently-used choices in the speech analysis system. The tampered audio files were analyzed to disclose the tampering traces.Results For the audio files transformed by editing, stretching, transcoding the sampling rate, converting frequency and other means, the tampering traces can be effectively found by the proposed methods.Conclusion The spectrum analysis can be used as an effective method for authenticity verification of recorded data.

Key words: recorded audio data; authenticity verification; spectrum analysis

随着公安业务数字化的应用范围越来越大, 围绕语音检验技术的案例在公安实战中出现的频率越来越高。录音资料的真实性决定其在侦查、起诉、审判阶段中发挥的作用, 经过伪造篡改的数字音频不能成为有效的证据, 否则会给侦查带来指向性的错误。如何正确鉴定从各种渠道得到的录音资料的真实性是公安机关、检察机关与审判机关需共同面对的课题。由于音频文件来源的多样性, 音频文件具有被剪辑、拉伸、采样率转换、变调等伪造篡改的可能[1]。如果数字音频文件被修改, 一般情况下会留下“ 声痕迹” 。分析这些声痕迹, 就可对检材的真实性做出判断。针对加载数字水印的录音文件, 可以通过检测其数字水印进行真实性鉴定[2]; 针对编码格式具有元数据(metadata)的录音文件, 通过判断检材录音文件的元数据和原始录音设备录音文件元数据的一致性, 从而判断录音证据的真实性[3, 4]

目前, 传统的听觉检验和宽带窄带语图的频谱检验仍是数字录音真实性分析的常用手段。但听觉检验进行辨识有较大的不确定性, 因此常采用听觉检验与宽窄带语图相结合的方法来检验录音证据的真实性[3]。传统的波形图谱与宽窄带图谱的分析方法可以直观的对数字录音信号的波形随时间变化关系以及信号的能量、频率、时间的相互关联进行检验, 但要求分析人员具有一定的分析检验经验[5]。相比宽窄带图谱的分析方法, 统计量化图谱检验方法如采样直方图、DC偏移、平均频谱等, 对用户既更简单直观又避免了在图谱分析过程中常出现的疏忽大意而漏掉某些细节的可能, 对数字录音资料的真实性检验效果较好 [1, 6]

1 统计量化图谱检验

为验证统计量化图谱检验的有效性, 本文利用现有的实验条件进行了如下的实验统计工作。

1.1 实验条件

1.1.1 硬件

Gnome-p专业录音器(采样频率8 kHz/16 kHz, 截止频率为16 kHz)、研华科技610H工控机(CPU i7-4790 3.60 G双核, 内存16 GB)。

1.1.2 软件

Adobe Audition语音编辑软件、STC降噪系统、俄罗斯法庭语音分析系统OT-Expert 5.1。

1.2 实验材料

源音频文件中发音人分为2组, 共10人, 均为江苏警官学院大学四年级的男生, 年龄分布在22~24岁之间, 分别来自江苏省内的中原官话区、江淮官话区和吴语区, 但采录时均用普通话进行录制。录音文本内容为中央电视台新闻联播的评论报道, 录制时长约3 min。

录制地点选择于江苏省公安厅物证鉴定中心的语音采集室, 录音设备为Gnome-p专业录音器, 通过人工设置录音器参数分别按照8 kHz和16 kHz进行采样。1组采用8 kHz采样率, 2组采用16 kHz采样率, 各录制一遍分别得到10份源音频文件。按照常用篡改方法, 利用Adobe Audition软件对源语音进行同一文件的复制拼接、不同采样属性文件间的复制拼接、转采样率、转采样位数、拉伸、变调操作, 进而得到共60份测试样本。其中不同采样属性文件间的复制拼接既有不同采样率文件间的拼接, 也有不同采样位数文件间的拼接。

1.3 实验方法

对60份测试样本, 根据各频谱分析方法的基本原理, 使用法庭语音分析系统对每份录音资料分别使用“ 平均频谱分析模块” “ 区域平均频谱对比模块” “ 采样直方图分析模块” “ DC偏移检验分析模块” “ 相位分析模块” “ 采样一致点分析模块” 共6种特有的频谱检验手段进行分析。因OT为成品商业软件, 不同于Praat开源软件可撰写脚本进行自动半自动化测试, 即需人工将待测试文件依次加入工程进行测试, 得到实验频谱结果后利用人工经验判断某位置是否存在编辑痕迹。一名实验员进行测试操作条件下, 360次鉴定试验的一轮测试预计花费30 h。为避免测试失误与实验误差, 要求两名实验员分别对所有测试项目各进行一轮测试, 最后对实验结果进行对比分析统计。

1.4 实验结果

1.4.1 平均频谱分析

对一段长度的音频信号进行长时平均功率谱分析, 产生平均频谱曲线, 进而分析出数字音频文件有无进行过重新采样的处理。从平均频谱分析方法对60份录音材料的实验结果来看, 每组录音样本中“ 不同采样率文件的复制拼接” 、“ 转采样率” 操作共20份录音样本出现频谱曲线陡降的现象, 如图1所示, 可认作真实性检出成功。而其余40份录音样本未出现频谱曲线陡降的现象。但平均频谱分析不能找到“ 剪辑点” 位置。

图1 平均频谱分析结果Fig.1 Utilizing average spectrum analysis to reveal the tampering trace

1.4.2 区域平均频谱对比

在数字音频文件中选取一段音频分析其区域平均频谱, 再将区域平均频谱和整个数字音频文件的平均频谱或者另一区域的平均频谱进行对比, 比较频谱之间的差异分析数字音频文件是否经过处理。从区域平均频谱对比分析方法对60份录音材料的实验结果来看, 每组录音样本中“ 不同采样率文件的复制拼接” “ 转采样率” 操作共20份录音样本出现部分区域频谱的高频部分曲线陡降的现象, 如图2所示, 可认作真实性检出成功。而其余40份录音样本未出现频谱曲线陡降的现象。其中, 如果存在检出不成功的情况, 可能是由于选取的疑似编辑时间段不正确造成的。同时, 区域平均频谱对比可进一步明确“ 剪辑点” 可疑时间段, 但尚不能锁定“ 剪辑点” 位置。

图2 区域平均频谱对比结果Fig.2 By contrast of regional average spectrums to disclose the tampering trace

1.4.3 采样直方图分析

通过对比疑似剪辑时间段与其它时间段的采样直方图的区别, 可以检出是否存在采样点数区别, 进而得出检验结论。同时通过对采样直方图的平滑程度和对称性也可以看出数字音频文件的格式是否改变或者是否插入其他文件。

使用区域采样直方图对比分析方法, 如图3所示, 每组录音样本中“ 不同采样属性文件间的复制拼接” 中的不同采样位数文件间的拼接方法得到的录音样本可以被正确检出。

图3 区域采样直方图对比分析Fig.3 By contrast of regional sampling histograms to show tampering trace

离散信号采样过程中大多数采样点数值趋近于零, 因此未经过篡改录音文件的平滑直方图曲线的波峰应位于x=0处且左右对称, 但经过篡改的录音文件的平滑直方图曲线对称中心则会产生偏移即不在x=0处, 称为“ y轴对称偏移的现象” 。因此利用采样直方图对称性, 如图4所示, 从60份录音材料的实验结果来看, 每组录音样本中“ 同一文件的复制拼接” 、“ 不同采样属性文件间的复制拼接” 操作, 共20份录音样本可观测到“ y轴对称偏移现象” , 认作真实性检出成功。而其余40份录音样本y轴平滑近似对称分布, 认定为未正确检出。其中, 如果存在检出不成功的情况, 可能是由于选取的疑似编辑时间段不正确造成的。同时, 使用区域采样直方图对比可进一步明确“ 剪辑点” 可疑时间段, 但尚不能锁定“ 剪辑点” 位置。

图4 采样直方图对称性分析Fig.4 The symmetry of sampling histograms to expose tampering trace

1.4.4 DC偏移检验

使用DC偏移检验分析方法, 每组录音样本中“ 同一文件的复制拼接” “ 不同采样属性文件间的复制拼接” 操作共20份录音样本在y轴放大波形上可以发现断层式不连续位置, 如图5所示, 可认作真实性检出成功。其余40份录音样本未发现断层不连续处。使用DC偏移检验进一步明确了“ 剪辑点” 位置。

图5 DC偏移位置分析Fig.5 DC offset analysis to discern tampering trace

1.4.5 相位分析

真实性识别窗口打开, 选取频谱分析界面, 同时设置帧长度大于400, 使用水平光标标记电网谐波频率, 选择在信号片段具有稳定的谐波进行相位分析形成新的图谱。选取帧长度为65 536(8192 ms), 采样点数选择为帧长度的两倍131 072, 帧偏移为5 %。

通过相位分析方法, 每组录音样本中“ 同一文件的复制拼接” “ 不同采样属性文件间的复制拼接” 操作共20份录音样本在谐波相位曲线中出现突变的部分, 如图6所示, 可认作真实性检出成功。而其余40份录音样本在谐波相位曲线中未发现突变。通过相位分析方法进一步明确了“ 剪辑点” 位置。

图6 谐波相位分析Fig.6 Phase analysis to unveil tampering trace

1.4.6 采样一致点分析

理论情况下, 一段未经过篡改的数字音频文件仅在开头和结尾中存在完全相同采样数值的片段。在一定采样范围内, 通过对离散信号的连续采样点数与数值进行分析比较并将检出结果输出到结果列表, 如图7所示。如果结果列表中存在采样一致点输出, 称为“ 采样一致现象” 。数字音频文件中间出现了采样一致现象则说明该数字音频文件可能经过了编辑处理。通过采样一致点分析, 每组录音样本中“ 同一文件的复制拼接” 、“ 不同采样属性文件间的复制拼接” 、“ 转采样率” 、“ 转采样位数” 、“ 拉伸” 共50份录音样本在音频中间时间段出现了采样一致现象, 可认作真实性检出成功。而“ 变调” 操作的10份录音样本未在音频中间时间段发现采样一致点。但采样一致点分析不能找到“ 剪辑点” 位置。

图7 采样一致点分析Fig.7 Coincident sampling points to uncover tampering trace

2 实验结果分析

平均频谱分析方法是对宽窄带语谱图的一种补充。传统宽窄带语谱图是考察语音共振峰、基频的情况, 而平均频谱用来考察录音设备的特性, 背景噪音分析等; 平均频谱严格来说是窄带图谱, 只不过显示方法不同。图1中频谱曲线陡降是由于低采样率向高采样率转换重采样后, 高频区域没有内容造成的。通过发现平均频谱陡降现象, 可以认为文件采样率有经过重采样操作的可能性。需要注意的是, 采样率由低变高进行转换时, 还需要进行模拟实验录音确认下录音机的麦克风频响范围, 如果麦克风的截至频率小于采样率也有可能造成骤降突变。在实际鉴定中应该结合录音资料情况, 视情况做出意见。

区域平均频谱对比的方法需与传统听觉检验配合使用, 先利用听觉检验搜索疑似篡改痕迹语音段, 再利用区域平均频谱对重点段落进行定量分析确认。通常情况下设备采样在高频段呈缓慢下降趋势, 而转换采样率时, 高频段的内容需要压缩到低频段内, 这样会导致在降低采样率时接近采样最大频率处内容依然饱满, 就会出现陡降。

采样直方图用于描述数据密度, 反映整个或部分音频片段的统计特性。与传统检验方法相比较, 将不同量化位数的音频片段拼接在一起, 虽然在听觉和语谱上没有篡改痕迹, 但可以通过对音频波形进行统计得到直方图, 结合音频波形采样值的概率分布对检材进行检测[7]

DC偏移是与采录设备相关, 普通录音开始时存在DC偏移纠正下降, 因此能通过DC偏移频谱分析发现偏移位置。观察语音信号采样点对称中心偏移情况。量化统计原理有点类似于采样直方图, 但DC偏移与采样直方图有区分, DC偏移更方便发现采样对称中心在哪个时间段偏移, 实现篡改痕迹准确定位。

相位分析原理是由于相同音频录制过程中收到的电网谐波(50 Hz或60 Hz)干扰时是稳定的, 通过观察能量曲线波动与谐波相位(-180~180 ° )的突变现象从而判定数字音频文件是否进行过插入和剪辑[8]。其优点是也可以对剪辑位置进行准确定位, 与传统语谱图的本底噪声检验方法功能类似, 但可以算法的量化统计实现自动定位, 提高了检验效率。

采样一致点分析是根据待检测文件的采样位数大小设置一致点分析的采样范围, 同时通过不断调整连续采样点的个数, 寻找待检测文件开头和结尾处具有完全相同采样数值的语音片段的同时, 也发现中间位置也存在相同采样长度下存在一致点的现象。因此可以分析得到该文件经过剪辑的结论, 并同样可以对剪辑位置进行定位。

通过上述实验结果也发现, “ 语音变调” 调制方法制作的录音样本很难被发现修改痕迹。语音变调算法有多种, 主要有由时域插值拼接方法与频域方法实现的[9], 针对变调的真实性检验往往根据不同的实现算法选择不同的检出手段。但变调后录音材料的音色往往失真或产生背景噪音, 所以可采用听觉检验进行判断。

3 结论与展望

随着数字技术的高速发展, 数字音频文件的编辑手法越来越隐蔽, 给真实性检验鉴定工作带来了不小的难度。本文利用专业语音分析系统的主要模块功能, 分析研究了录音资料真实性的频谱检验方法。虽然各方法对不同的篡改方法均存在有效性, 但同时也存在一定的局限性。因此对录音资料进行真实性鉴定时需综合使用多种频谱分析方法并结合传统听觉检验查找篡改痕迹才能得出准确无误的鉴定结论。

The authors have declared that no competing interests exist.

参考文献
[1] 丁琦. 数字音频篡改检测与隐写分析技术研究[D]. 郑州: 解放军信息工程大学, 2011. [本文引用:2]
[2] 李伟, 袁一群, 李晓强, . 数字音频水印技术综述[J]. 通信学报, 2005, 26(2): 100-110. [本文引用:1]
[3] 郭弘. 录音证据的真实性检验与研究[J]. 电信科学, 2010 (11A): 56-60. [本文引用:2]
[4] 唐畅, 廖翔, 徐晶, . 数字录音资料真实性检验[J]. 警察技术, 2012(4): 61-63. [本文引用:1]
[5] 王虹, 王虓, 岳俊发. 录音剪辑检验的实验研究[J]. 刑事技术, 2008(1): 5-7. [本文引用:1]
[6] 王英利, 李敬阳, 曹洪林. 声纹鉴定技术综述[J]. 警察技术, 2012(4): 54-56. [本文引用:1]
[7] 唐畅, 徐晶. 基于直方图的音频真实性检测方法研究[J]. 警察技术, 2014(4): 52-53. [本文引用:1]
[8] 曾锦华, 施少培, 杨旭, . 数字录音真实性司法鉴定研究现状[J]. 中国司法鉴定, 2014, 75(4): 57-61. [本文引用:1]
[9] 张晓蕊, 田岚. 语音变调方法分析及音效评估[J]. 山东大学学报(工学版), 2011, 41(1): 1-6. [本文引用:1]