安全防范监控数字视音频编解码技术标准的特点与应用
刘慧念, 孙振文, 崔冠峰, 周红, 季安全*
公安部物证鉴定中心,北京 100038
* 通讯作者:季安全(1965—),男,山东营南人,主任法医师,硕士,研究方向为法庭科学科技创新、法医遗传学。E-mail:aqjdna@163.com

作者简介:刘慧念(1976—),男,广东饶平人,副研究员,硕士,研究方向为视频图像分析。E-mail:liuhuinian@cifs.gov.cn

摘要

国家标准《安全防范监控数字视音频编解码技术要求》(GB/T 25724-2010)创新性地提出了多项视音频编解码技术,而法庭科学应用中的特定需求是视频图像必须最大限度地“忠实于现场”,本文分析了采用该标准的安全防范监控数字视音频编解码技术的特点,例如精度可以扩充视频数据的编码技术、选定区域的高质量编码技术、视频分层编码以及内嵌绝对时间等安防监控专用信息、支持数据安全保护、声音识别特征参数编码等,讨论了标准中提出的视音频编解码技术在法庭科学领域中的应用方向。

关键词: 视频图像分析; 视音频编解码技术; 视频侦查; 感兴趣区域; SVAC标准
中图分类号:DF793.2 文献标志码:A 文章编号:1008-3650(2016)04-0322-04 doi: 10.16467/j.1008-3650.2016.04.016
Analysis of Technical Specification about Surveillance of Video and Audio Coding (SVAC)
LIU Huinian, SUN Zhenwen, CUI Guanfeng, ZHOU Hong, JI Anquan*
Institute of Forensic Science, Ministry of Public Security, Beijing 100038, China
Abstract

The national standard GB/T 25724-2010 - Technical Specification of Surveillance Video and Audio Coding (SVAC) innovatively puts forward a lot of new technologies about video and audio coding and decoding. This article mainly analyzes the technical features of SVAC, for example, the high-precision and extensible coding methods, variable quality-coding on“region-of-interest”, scalable video coding(SVC), the special information embedded in video/audio streams, security protection of data, coding of voiceprint-feature parameters and the others important. Emphasis targets at the special requirement of “video and image must be faithful to the criminal scene” in application of forensic science. Discussions deal with the possible application of SVAC in forensic practice.

Keyword: video image analysis; video audio coding and decoding; video investigation; region-of-interest; surveillance coding of video andaudio

2011年5月1日, 国家标准《安全防范监控数字视音频编解码技术要求》(GB/T 25724-2010), 英文名称为Technical specification of surveillance video and audio coding(以下简称:SVAC标准)正式颁布实施。该标准由工业和信息化部和公安部联合制定, 正式颁布实施以来, 在安全防范行业引起强烈反响, SVAC标准系列产品的研发、应用、推广工作正在火热开展中。本文从SVAC标准的目的意义、法庭科学应用中的需求、采用SVAC标准的安全防范监控数字视音频编解码技术的特点及SVAC标准在法庭科学领域中的应用等方面对SVAC标准进行了分析。

1 SVAC标准的目的意义

我国公共安全领域技术标准体系正在逐步建立完善, 但SVAC标准颁布之前, 关键基础性的标准如信源编码标准仍主要采用国外制定的标准如H.264、MPEG等, 我国每年在安防监控领域应用中支出高昂的专利费, 一定程度上阻碍了应用的发展, 该标准针对我国社会公共安全领域视音频监控编码缺少自有知识产权标准这一现实问题, 历经多年持续研发, 并充分考虑技术的未来发展趋势, 提出了多项针对安防监控应用特殊要求的视音频编解码技术创新, 包括:(1)精度可扩充的视频数据编码; (2)选定区域的高质量编码技术; (3)上下文自适应二进制算术编码; (4)分层视频编码; (5)内嵌绝对时间等安防监控专用信息; (6)支持数据安全保护与数据认证; (7)携带声音识别特征参数信息; (8)支持面向声音异常事件的高质量语音编码。

采用上述技术创新的SVAC标准契合了法庭科学应用中对视频图像“ 忠实于现场” 的特定需求, 为安全防范监控视音频联网应用奠定了重要基础, 能很好地满足当前我国各行业、各领域视频监控建设的迫切需要[1]。SVAC标准是我国第一个具有自主知识产权且适用于国家安全领域的关键基础信息技术标准[2], 该标准充分扩展了视频编码相关应用领域, 通过发布实施和推广标准相关技术、产品和系统, 能够有效保障国家重要场所视音频信息安全, 显著提升我国安防视音频监控行业的技术水平, 有力提高公安机关预防和打击违法犯罪活动能力水平, 可在公共安全、数字城市、智能交通、商业金融、卫生医疗等多领域得到应用。

2 法庭科学应用中的视频编解码技术需求

法庭科学广义的概念, 是指运用一切医学、自然科学的理论与技术, 研究并解决刑事侦查、审判以及民事纠纷中有关专门性问题的一门自然科学, 是为侦查和审判工作提供线索及证据的专门技术手段[3]。无论是从为侦查工作提供线索还是为审判工作提供证据的角度, 视音频数据在法庭科学应用中始终都以“ 忠实于现场” 为核心, 法庭科学应用中对视音频编解码的主要技术需求包括:(1)安全可信。监控视音频数据应用于还原案事件现场场景, 必然要求实时传输和存储录像的视音频数据具有较高的安全性和可信度, 具有不可否定性。(2)实时性。应用于侦查和审判的视频图像, 要求视音频编码时内嵌绝对时间, 以确保视频图像记录时间与案发时间的一致性。(3)智能性。视频图像应用于侦查, 如何在海量视频数据中快速发现线索是急需解决的现实问题, 因此在进行视频实时编码时应能同步实现移动侦测、目标跟踪等智能处理以便提取到运动目标的基本信息。另外在进行实时音频编码前即提取出声纹特征信息, 避免经编码、传输、解码后再提取声纹特征信息的信号损失, 为智能视音频分析应用系统提供更准确的原始特征信息参数, 从而奠定有效利用视音频信息资源进行语音识别、人车识别、视频快速检索等的技术基础。(4)关注区域高质量编码。在视频图像查看、检索或作为证据呈现时, 要求能区分前景背景, 在同等传输、存储系统资源消耗的情况下, 能进行动态码率调整, 对运动目标、人脸、车牌、禁区、可疑目标等警用关注区域进行高质量编码, 以保证关注目标图像的清晰。(5)忠实于场景。由于案事件发生时间、地点的不确定性, 要求视频监控系统在较恶劣现场环境中拍摄的视频图像能最大限度地还原案事件现场场景。

3 SVAC标准面向法庭科学应用的技术特点及创新

前面提到SVAC标准在充分借鉴国内外信息技术领域最新研究成果的基础上针对安全防范监控中最基础、最关键的信源信息提出了面向公共安全的实际需求、以忠实于场景为核心的八大技术创新, 该标准在实现通用视音频编解码功能的基础上精心设计技术内容, 并根据安防监控和公安破案的特定需求建立了相应特点的整体技术框架。针对法庭科学应用中的视频编解码技术需求, SVAC标准面向法庭科学应用的技术特点及创新主要有:

3.1 扩充了视频数据编码精度

法庭科学应用中要求既能从视频图像中获取更丰富的局部细节, 同时又能适应从“ 最暗” 至“ 最亮” 的高动态范围。提高视频数据精度(位宽)可以提高图像对比度、增强图像细节和增加图像层次感, 目前的编解码器大部分都只支持8bit数据, 不能扩展到更高比特数, 但视频前端的采集设备和后端的视频显示设备普遍可以支持10bit数据, 一些特殊的设备甚至可以支持更高精度, 如果只采用8bit数据编码, 在编解码环节就损失了2bit的数据信息, 在整个系统中编解码环节成为短板, 无形中降低了系统的整体性能。SVAC标准中目前支持8~10bit的高精度视频数据, 可扩充到12~16bit编码, 使得系统中采集、编码、解码、显示都可采用相同的精度。SVAC标准对编码精度的扩充, 一方面可减少在编解码环节的图像信息损失, 另一方面可提高图像对比度并增强图像细节, 使编码后的视频数据尽可能真实、完整地保留拍摄场景的图像细节。

3.2 图像质量更好与编码效率更高

SVAC标准力图在图像质量和编码效率之间取得最佳效果, 在保障好的图像质量的前提下采用了较高效率的编码方案。例如采用了上下文自适应二进制算术编码(Context Adaptive Variable-Length Coding, CABAC)和自适应帧-场编码(Adaptive Frame-Field, AFF)等技术, 研究结果表明, CABAC比基于上下文的自适应变长编码(Context-Adaptive Varialbe-Length Coding, CAVLC)有更高的编码效率, 另外SVAC编码在采用8× 8预测和变换的基础上, 增加了帧内Intra 4× 4预测和变换, 采用Intra4× 4可以有效降低局部噪声(如细节丰富、边缘锐利的区域附近)。

3.3 关注区域采用高质量编码

在视频侦查工作中, 场景中的某些关注区域(即感兴趣区域, Region of interest, ROI)往往是侦查人员重点查看的内容。SVAC标准支持对ROI部分采用更高码率编码以保证图像质量、对非ROI部分采用低码率编码或跳帧编码, 在保证ROI图像质量的同时节省非ROI的码流, 从而降低网络带宽或存储空间。SVAC标准支持设置多个ROI, 且可对每个ROI的图像质量分别控制, 可以有效提高监控系统的整体性能。图1视频截图中, 红色方框内区域为ROI, 采用SVAC标准的ROI图像质量控制方案, 由于给ROI部分分配了更多的码流, 在总码率同样的情况下, ROI的图像质量更好, 车牌显示清晰。

图1 ROI变质量编码视频截图Fig.1 Variable bitrate coding for the “ region of interest”

3.4 支持视频分层编码

在视频监控应用中, 经常存在双码流或多码流的应用场景, 即对同一场景既要查看低分辨率视频又要查看高分辨率视频, 例如在窄带传输网络(如无线网络传输)环境下只传输低分辨率的码流, 对于宽带网络或存储时则采用较高分辨率的码流。目前大多数厂商采用的双码流或多码流方案是由编码器分别输出不同分辨率的视频流, 即对高分辨率图像进行编码后又对抽样后的低分辨率图像再进行编码, 传统的多码流方案中编码系统开销大, 从低分辨率码流中无法解码得到高分辨图像, 应用上受到一定的局限性。视频分层(Scalable video coding, SVC)技术将视频数据分为基本层和增强层, 并分别编码, 编码系统共用一个编码器或编码模块; 基本层主要由低分辨率编码图像构成, 对基本层和增强层联合解码可以获得高分辨率的视频序列, 对基本层单独解码可以获得低分辨率的视频序列。采用SVC技术, 减少了码流的传输和存储, 比简单的双码流和多码流具有更好的编码效率, 将分层码流联合解码得到的高分辨率的视频序列, 更有利于真实展示犯罪现场的场景。

3.5 内嵌监控专用信息

SVAC标准针对视频侦查实际需求, 支持在视频数据中内嵌监控专用信息(如绝对时间、超速等特殊监控事件)。监控专用信息通过专门语法内嵌于视音频压缩编码码流中, 并作为码流的一部分一起传输和存储, 系统检索查询时通过内嵌的专用信息可快速找到关联的视频图像, 另外绝对时间的嵌入有利于视音频同步和多路视频同步。SVAC标准的这一技术特点对于从海量视频数据中快速发现关注目标, 以及准确还原案事件的发生时间方面都起到非常重要的作用(图2)。SVAC标准完善的安全机制, 对于提高视频数据的证据力、保障国家重要信息安全, 保护公共安全行业的敏感信息具有重要意义。

图2 嵌入监控专用信息到视频流中的示意图Fig.2 Embedding the special information into video stream

3.6 支持数据安全保护

视音频数据在网络中的传输会带来非授权访问、非法监听等问题, 同时数字视频数据易于被篡改且难以察觉。在法庭科学应用中, 监控数据的机密性、完整性和非否认性至关重要。加密可以有效保护数据的机密性, 防止非授权访问和非法监听。认证可以识别视音频的产生源以及所对应的视音频数据是否完整或被篡改。SVAC标准保护了数据的安全, 规范了加密和认证接口, 明确了接口的数据格式, 以统一的语法格式支持多种加密和认证算法, 提高了数据的机密性、完整性和非否认性。如图3所示。

图3 嵌入加密与认证信息到视频流中示意图Fig.3 Embedding the encrypted and authenticated information into video stream

3.7 支持音频双核编码

考虑到监控中的音频内容主要是语音信号以及环境(背景)声音信号, SVAC标准采用了代数码书激励线性预测(Algebraic Code Excited Linear Prediction, ACELP)和变换音频编码(Transform Audio Coding, TAC)切换的双核音频编码方案以适应不同的场景。对语音信号采用以ACELP为核心的编码技术可以获得较好的编码效果; 对于环境(背景)声音信号, 其种类复杂, 要获得对环境或背景声音的较好编码效果则不宜采用ACELP核的编码技术, 而采用TAC技术则更加适合对环境或背景声音。另外, 监控声音信号中, 与低频相比, 高频信号所含的信息量的比例较少, 采用带宽扩展(Bandwidth Expansion, BWE)编码可以节省码率。SVAC音频标准以上技术特点保证了在低码率下背景声音较好的编码质量。音频双核编码的技术实现如图4所示。

图4 双核音频编码示意图Fig.4 Methods for dual-core audio coding

3.8 支持声音识别特征参数编码

从解码重建的语音信号中提取声音识别特征参数同从编码前的原始语音信号中提取声音识别参数相比, 显然前者由于编解码引起了信号失真, 语音识别和声纹识别的准确性受到一定影响。因此SVAC标准采用了在音频编码之前从原始语音信号中提取声音识别参数的技术方案, 避免了编解码过程中的信号失真引起的对语音和声纹识别的影响。声音识别特征参数编码技术实现如图5所示。

图5 声音识别特征参数编码示意图Fig.5 Coding parameter for recognition of the sound feature

图5的上半部分, SVAC标准在音频编码时, 直接从原始信号中将识别特征参数(mel-frequency cepstralcoefficients, MFCC)先提取出来, 然后与编码后的声音信号一起打包, 在解码时直接可以得到MFCC, 而不是从解码的声音信号中再提取MFCC; 这样避免了编解码对MFCC造成的损失。MFCC系数利用了倒谱的解相关特性, 模拟人的听觉特性, 具有很好的识别性能和抗噪能力, 常作为语音/声纹识别的主要特征参数, 适合于在声纹鉴定中应用。

4 SVAC标准在法庭科学领域中的应用

以审判为中心的诉讼制度改革, 对法庭科学领域中的视频侦查工作也提出了更严标准和更高要求。SVAC标准顺应技术发展趋势并契合诉讼制度改革要求, 从标准的规划和制定开始, 就紧紧围绕公共安全的实际需要, 特别是法庭科学应用中对视频图像“ 忠实于现场” 的特定需求。从视频侦查的业务需求出发, SVAC标准的技术特点至少可以在以下方面发挥重要作用:

(1)应用SVAC标准的监控专用信息, 实现海量视频数据的快速检索查询, 从而快速发现关注目标。

(2)应用SVAC标准的声音识别特征参数编码技术, 将影像识别信息与声纹鉴定信息融合, 实现基于多元信息的个体识别。

(3)应用SVAC标准的数据安全保护机制, 防止视音频数据被非法篡改, 保证视音频数据的完整性, 提高视音频数据的证据力。

目前SVAC标准相关产品、产业和系统已经进入规模化应用阶段, 在不远的将来, 法庭科学领域将大量处理采用SVAC编码标准的视音频数据, 视频侦查和相关领域的技术人员应尽快熟悉SVAC标准及其技术特点, 以充分发挥SVAC标准在打击和预防犯罪中的作用。

The authors have declared that no competing interests exist.

参考文献
[1] 全国安全防范报警系统标准化技术委员会. 安全防范监控数字视音频编解码技术要求: GB/T 25724—2010[S]. 北京: 中国标准出版社, 2010. [本文引用:1]
[2] 陈朝武, 郅晨, 张跃. SVAC标准技术创新及其在视频监控联网系统中的作用[J]. 警察技术, 2011(4): 62-65. [本文引用:1]
[3] 邱爱民. 论法庭科学的内涵和外延[J]. 中国政法大学学报, 2010(6): 124-125. [本文引用:1]