白噪声不同信噪比对语音基音和共振峰的影响研究
陈泉金, 黄君灿, 陈航
福建省公安厅刑事技术总队,福州350003

作者简介:陈泉金 (1985—),男,福建泉州人,工程师,硕士,研究方向为声纹检验技术。 E-mail:13960777800@139.com

摘要

目的 研究不同强度白噪声对语音特征提取的影响,总结变化规律,为带噪语音的声纹鉴定提供参考。方法 对TIMIT连续语音语料库中的录音样本加载不同强度白噪声,使用语音工作站提取纯净语音、不同信噪比带噪语音的基频、共振峰,研究分析白噪声对语音特征参数的影响。结果 低噪环境下,语音共振峰相对稳定,增大噪声强度,共振峰出现偏移或者无法检出现象;各阶共振峰抗噪能力不同,低阶共振峰抗噪声能力强,稳定度高,高阶共振峰抗噪能力弱,稳定性差,低阶共振峰抗噪能力优于高阶共振峰;基音在各种噪声强度下稳定度高,具备较强鲁棒性。结论 信噪比降低会引起共振峰频率偏移,甚至丢失共振峰;噪声对高阶共振峰影响大于低阶共振峰;基频在噪声环境下具备较高的抗干扰能力,声纹鉴定中应重点分析噪声对语音特征的影响。

关键词: 声纹; 线性预测系数; 白噪声; 共振峰; 基音
中图分类号:DF793.2 文献标志码:A 文章编号:1008-3650(2015)01-0049-06 doi: 10.16467/j.1008-3650.2015.01.011
Effects of White Noise with Different SNR on Pitch and Formant
CHEN Quan-jin, HUANG Jun-can, CHEN Hang
Forensic Science Section, Fujian Public Security Bureau, Fuzhou 350003, China
Abstract

Objective To study the influence of white noise on the extraction of phonetic feature and to offer a reference for identification of the speech mixed with noises.Methods After embedding the different intensity of white noise into the speech samples which were selected from the DARPA TIMIT acoustic-phonetic continuous speech corpus, we utilized speech workstation to extract pitches and formants from both pure speech and noisy speech of different signal-to-noise ratio(SNR) thereby analyzing the influence of white noise on the parameters of phonetic feature.Results Formant frequency kept relatively stable in low noisy condition but appeared shifting or even undetected under certain conditions with the noise strength enhancing. For each order of formant, the anti-noise ability was different, with the low order showing strong and highly stable but the high order weak and poorly stable. However, the pitch retained steady in various noisy conditions.Conclusions Reducing SNR can result in formant frequency shifting or vanishing. The influence of noise on the formant of high order is bigger than that of the low order. Pitch keeps highly stable in noisy environment.

Keyword: voiceprint; linear prediction coefficient; white noise; formant; pitch

声纹鉴定也称为说话人识别, 是一项根据语音反映说话人发音和言语的特征, 识别说话人的技术[1]。声纹鉴定技术是我国继指纹、DNA后又一个生物特征库技术。随着电信网络、互联网语音业务和数字录音技术的飞速发展, 电信诈骗、绑架、敲诈勒索等涉及语音的案件呈现快速上升趋势, 声纹鉴定的需求越来越多, 但在检验鉴定中发现, 检材和样本普遍存在噪声, 并对部分声学参量产生一定的影响。一方面, 检材和样本录制的场景、外部环境不同, 噪声的类型和强度存在差异; 另一方面, 检材和样本由不同录音设备生成时, 设备本底噪音也存在差异。如果对这种差异缺乏全面、系统的研究分析, 无法准确区分语音本质差异还是噪音影响差异, 可能会导致错误的鉴定结论, 因此研究不同噪音对声纹特征提取的影响很有必要。本文基于各种信噪比强度下的声纹样本, 提取基音频率、共振峰等常见声纹特征参数, 并对参数的差异进行研究分析, 以更好的指导声纹案件的检验鉴定。

1 材料与方法
1.1 语音样本

实验的样本来自TIMIT数据库, 16KHz采样、16比特量化、单声道。普通语音采样率在11.025~ 20KHZ之间, 电话录音为8K, 高采样率能保证信号频谱不混叠, 高频部分不失真。

1.2 声纹特征参数提取原理

特征提取就是从说话人的语音信号中提取出个人独特的特征信息[2]。语音学分析法通过使用语音工作站测量、分析说话人的语音声学特征, 语音学分析法使用的语音特征有频谱特征和非频谱特征, 其中主要包括共振峰(formants)、音高(pitch striations)、声调(intonation)、能量分布(energy distribution)、时长(word length)、过渡音征(coupling)、方言口音(dialect accent)、语速(speech rate)等[3]。本文所研究的声纹特征为基音频率、基于长时LPC谱提取的共振峰。

1.2.1 基 频 基频是声带振动的基本频率, 即每秒钟声带振动的次数, 在听觉上感知为音高[4]。基频的倒数为基音周期, 基音周期及其派生参数携带有较多的个人特征信息, 发音中一个字的基音周期变化即声调, 是一种重要且稳定的个人特征参数。常见的提取基音的方法有短时自相关函数法、短时平均幅度差函数法、倒谱法、小波变换法等。

1.2.2 线性预测系数及共振峰 线性预测分析的基本思想是, 一个语音样本的抽样能够用过去若干个语音抽样的线性组合来逼近:

(1)

通过使实际语音抽样和线性预测抽样之间的最小均方误差的逼近, 能够获得一组线性预测系数。

预测误差及均方预测误差为公式(2)、(3)所示

(2)

(3)

线性预测分析采用的是声道模型, 将声道看做谐振腔, 共振峰就是腔体的谐振频率, 通过线性预测分析得到的声道模型为全极点模型(AR模型), 如图1所示:

图1 AR模型图Fig. 1 AR model diagram

系统函数为:

(4)

其中, p 为LPC线性预测阶数, ai为LPC系数, E(z)为声门激励信号Z变换, S(z)为语音信号的Z变换, A(z)为逆滤波器。本文实验中LPC的阶数取12。LPC系数是线性预测分析的基本参数, 可以把这些系数变换为其它参数, 以得到语音的其他替代表示方法, 目前LPC线性预测导出的各种参数是识别特征非常重要的来源[5]

共振峰是声纹鉴定中最重要的特征之一, 它能够提供很多发音人的个性特征。在元音产生中, 声源谱经过声道的调制, 改变了原来的谐波振幅关系, 与声道形态相对应, 形成有起有伏的包络曲线, 该曲线即为声道传输特性曲线, 包络曲线的峰被定义为共振峰。本文中采用的是测量元音共振峰中心频率方法。

1.3 白噪声

噪声又成为噪音, 从主观角度来看, 所有不希望存在的声音都可成为噪声。噪声分类方法很多, 按声音的频率可分为低频噪声、中频噪声、高频噪声, 按时间变化属性可分为稳态噪声、非稳态噪声、起伏噪声、间歇噪声和脉冲噪声等[6]

白噪声是指功率谱密度在整个频域内均匀分布的噪声, 是一种功率谱密度为常数的随机信号或随机过程, 它在等带宽频带内的噪声能量相等, 包含有各种频率成分, 频谱图为一条平行于频率轴的直线。理想的白噪声带宽无限、能量无限, 在现实中不可能存在。在信号处理和数学分析中, 当一个噪声所具备的频谱宽度远大于系统带宽, 且频谱密度基本可以作为常数考虑, 就可以把它作为白噪声处理, 比如热噪声和散弹噪声。白噪声广泛应用于系统分析、环境声学测量、电子音乐等领域, 是系统考核的有力工具。

1.4 实验方法

本实验主要测量在不同信噪比条件下基音频率、共振峰频率的变化规律, 并进行统计分析。实验中使用Matlab对纯净语音加载不同强度白噪音, 为研究方便, 文中SNR代表的是信号与噪声功率的比值, 可用函数10lg SN将比值转化为分贝(dB); 在不同的信噪比条件下, 使用智能分析平台提取相同音节基音频率、长时LPC共振峰频率, 通过测量和统计分析, 研究噪声对声纹特征参数的影响规律。

2 结 果
2.1 基音频率提取

首先对语音信号进行预处理, 预处理的目的是消除低频干扰, 提升高频部分频谱, 使信号频谱变得平坦, 以便于频谱分析。使用智能声纹分析平台提取基音频率。图2为样本元音ɔ 在无噪环境、信噪比分别为20、10、8、4、1条件下计算出的基音频率曲线, 对元音ɔ 在2.89~3.06s时长范围提取各帧基频。表1为元音ɔ 的基频实验测量值。

图2 元音“ ɔ ” 在不同信噪比环境下的基音频率曲线图Fig. 2 Pitch frequency curve of vowel “ ɔ ” in different SNR environment

表 1 元音“ ɔ ” 在不同信噪比环境下各帧基音频率值 Table 1 Pitch frequency value of vowel “ ɔ ” in different SNR environment
2.2 长时LPC共振峰提取

对语音信号进行预处理后, 用智能声纹分析平台提取样本元音i、 æ 各阶共振峰。图3为样本元音i在无噪环境、信噪比分别为30、25、20、15、10、6、2、1条件下计算出的各阶共振峰频率曲线。表2为元音i的各阶共振峰实验测量值。

图3 元音“ i” 在不同信噪比环境下各阶共振峰曲线图Fig. 3 Formant curve of vowel “ i” in different SNR environment

图4为样本元音æ 在无噪环境、信噪比分别为30、25、20、15、10、6、2、1条件下计算出的各阶共振峰频率曲线。表3为元音æ 的各阶共振峰实验测量值。

图4 元音“ æ ” 在不同信噪比环境下各阶共振峰曲线图Fig. 4 Formant curve of vowel “ æ ” in different SNR environment

表2 元音“ i” 在不同信噪比环境下各阶共振峰参数测量值 Table 2 Formant frequency value of vowel “ i” in different SNR environment
表3 元音“ æ ” 在不同信噪比环境下各阶共振峰参数测量值 Table 3 Formant frequency value of vowel “ æ ” in different SNR environment
3 讨 论

本文通过对声纹识别中主要特征参数的提取, 来分析不同信噪比条件对这些参数的影响。使用Matlab软件对无噪语音样本加载白噪声, 对不同信噪比条件下的含噪样本进行参数提取。

实验中选择的白噪声是一种无规噪声, 它的幅值对时间分布满足正态分布, 具有连续谱, 包含有各种频率成分噪声, 对分析噪声环境下声学特征变化最为合适。语音的预处理十分重要, 为了消除声门激励和口鼻辐射影响, 提升高频部分频谱, 采用一阶预加重数字滤波器, 以便于频谱分析, 实验中取值0.97

(5)

基音分析中发现, 噪声对基音频率的影响有限, 从图2中可以看出, 信噪比为20、10的基音频率曲线与原始无噪样本基音频率曲线拟合得非常好, 各帧最大频率偏移均小于2赫兹; 进一步增大噪声强度, 出现语音起始帧无法检出基频的现象, 当信噪比等于1(即噪声强度和信号强度相同)时, 出现较多语音帧无法检出基频现象。从表1能够看出, 在各种信噪比条件下, 去除无法检出的语音帧, 能够检出的语音帧基频与原始语音帧基频偏差极小。因此, 噪声对基音的影响有限, 误差小, 基音频率曲线在含噪声纹的鉴定中具有鲁棒性, 在分析含噪语音中, 可以提取基音参数作为特征参数, 稳定度高。

线性预测分析提取共振峰中发现, 噪声强度不同, 会引起共振峰频率偏移或者丢失。表2是元音i在不同信噪比环境下测量的各阶共振峰中心频率值, 图3是F1、F2、F3的参考示例。从表2图3可以看出, F1在各种噪声环境下表现稳定, F2在信噪比小于6时丢失, F3在信噪比小于25时丢失; 同样, 结合表3图4分析元音æ 在不同信噪比环境下各阶共振峰中心频率值, F1、F2在噪声环境下相对稳健, F3在信噪比等于2时无法检出, 在信噪比等于1时测出的值偏差严重; F4在信噪比小于25时出现严重偏移或者无法检出的情况。综上, 噪声对LPC共振峰提取存在影响, 首先, 噪声强度增大, 会引起共振峰出现偏移甚至无法检出; 其次, 低阶共振峰在噪声环境下相对稳健, 高阶共振峰对噪声敏感; 最后, 实验中发现, 无论是低阶还是高阶共振峰, 随着噪声强度增大, 都会出现共振峰强度降低、带宽展宽现象。因此, 声纹特征提取中要特别关注噪声强度, 在高阶共振峰出现偏移或者无法检出时, 适时调整参数, 结合共振峰走势图, 判断导致差异的原因。

声纹鉴定中, 检材和样本往往在不同环境下录制, 本文中重点研究了白噪声环境下声纹特征参数的提取和变化规律, 实际中, 还存在其他类型噪声, 如粉红噪声、褐色噪声等, 其影响规律有待进一步研究, 通过全面、准确掌握噪声对鉴定声学参量的影响, 有助于帮助我们做出正确的鉴定结论。

The authors have declared that no competing interests exist.

参考文献
[1] 杨英仓, 徐毓文, 欧荣安, . 听辨在声纹鉴定中的作用[J]. 刑事技术, 2012(1): 43-45. [本文引用:1]
[2] 何振亚, 顾明亮. 语音信号的主分量特征[J]. 应用科学学报, 1999, 12(3): 12-14. [本文引用:1]
[3] 李敬阳. 国内外声纹鉴定发展概述[J]. 刑事技术, 2009(S2): 52-53. [本文引用:1]
[4] 张翠玲. 法庭语音技术研究[M]. 北京: 中国社会出版社, 2009: 13. [本文引用:1]
[5] 郁伯康, 郁梅. LPC方法提取语音信号共振峰的分析[J]. 电声技术, 2000, 3: 3-8. [本文引用:1]
[6] 杨俊杰. 司法话者识别[M]. 北京: 中国人民公安大学出版社, 2009: 23-2. [本文引用:1]