您的当前位置:首页基于特征的音频比对技术

基于特征的音频比对技术

来源:小侦探旅游网
维普资讯 http://www.cqvip.com 第34卷 第2期 河南师范大学学报(自然科学版) £.34 No.2 2006年5月 Journa o f Henan Normal University(Natural Science) Mav.2006 ===========!=!!!!!=== ===== 文章编号:1000 基于特征的音频比对技术 郭兴吉 ,范秉琪 (1.绵阳师范学院物理与电子信息工程系,四JII绵阳621000;2.郑州大学电气工程学院,郑州450000) 摘 要:音频比对有别于语音识别,音频比对不存在音频重构.在保证音频主要信息不丢失的前提下,采用二 阶Haar小波变换压缩原始音频,以音频帧的方式提取出能代表音频主要信息特征的质心、均方根和前12个Mel倒 谱系数,并分别计算这3类参数的欧氏距离,根据欧氏距离的值与阎值E之间的关系,完成音频间的比对任务.经实 践证明,这套方案对于音频比对具有较高的准确性和较好的实时性. 关键词:小波变换;音频参数;欧氏距离;音频相似度 中图分类号:TP391.42 文献标识码:A 语音识别技术是全球研究的热点,从文字的语音录入到对设备的语音控制、基于Internet的语音搜索以及基于视频的音 频识别等都有不少的研究成果.音频比对技术,既属于语音识别范畴,又有别于语音识别.语音识别需要从一段语音信息中, 搜索出语言文字和对语言文字语义的理解;而音频比对技术是指从一段连续的音频信息中搜索出是否存在指定的音频序列、 指定的音频序列在该段连续的音频序列中的起始和结束位置,以及指定音频序列在该段连续音频序列中的完整性的技术.这 类技术不用去考虑音频的具体语义.实现音频比对技术的方法主要分为两种:一是利用提取音频特征参数来进行音频相似度 比对;二是利用图形技术,将标准音频和被测音频同时转换为相同时间轴的波形,再利用图形识别技术来实现音频的比对. 本文采用提取音频特征参数的方法来实现音频之间的相似度比对,其实现流程如图1所示,重点是音频参数的选择、获取 和比对技术的实现. 失败 图l基于提取特征参数的音频比对流程示意图 1利用小波变换实现音频数据的压缩 由于采集的音频数据信息量非常大,直接从中获取音频特征参数会导致参数量过大而影响比对实时性.因此首先采用 Haar小波变换非重构算法 来压缩音频信息. 1.1 Haar小波函数概述 基本Haar函数的图形如图2所示.函数的定义为: r1, 当O z<1/2 ( )一 一1, 当1/2 <1  IO, 其它 收稿日期:2005—04—2l 基金项目:四川省教育厅青年重点基金项目(2002A117) 作者简介:郭兴吉(1 964一),男,四川南充人,绵阳师范学院教授,研究方向:多媒体技术和网络技术 维普资讯 http://www.cqvip.com 36 河南师范大学学报(自然科学版) 2006卑 1.2音频数据的压缩 设有一段分辨率为N个数据的立体声音频数据X={ , ,…,z }(N mod 2=O),用Haar小波变换为: xj- ̄-,一vj+2 一。一 一 +2 i一1,2,…,N/4, 一4.(i一1)+1 (1) +ll一墨 …= 一为+3 i一1,2,…,N/4, =4.( —1)+1 (2) 分别利用(1)、(2)两公式即可得到一阶小波变换后的音频数据新序列x =l , z,…,z }以及重构系数序列Y 一{ ,Y ,…,Y ,},式中N =N/2.再次利用 上述计算公式对X 进行Haar二阶变换,得到音频序列 .经过Haar二阶变换后, 图2 Ha盯小渡函数图形示意图 音频的波形除幅度有所减小外。波形轮廓几乎没有变化,为了补偿音频波形幅度,引 入调节系数E:. 一 ・(1+£),0.005 £ 0.1. 2提取音频特征参数 音频特征参数,是指能代表原始音频中主要信息的参数r- -1.提取音频特征参数,通常采用“音频帧”的方法r。-1,逐帧提取. 对于每一个音频帧,本文提取其质心、均方根和l2个Mel倒谱系数[ 共14个参数,来构成14维的帧特征参数. 2.1音频帧的确定 对于音频序列,以2O msE 5](实际对应压缩前的8O ms)采集的音频数据量为一个音频帧(相邻音频帧重复10 ms,以消除 帧间闪烁),在音频帧中再等分32子带来计算帧质心和均方根.音频帧的划分如图3所示. 20m目 音频帧1 音频帧2 音频帧3 图3音频帧划分示意图 2.2提取音频特征参数 设一个音频序列的采样频率为 ,采样声道数为S ,采样位数为 ,每个子带的数据个数为K(=,|・Sd・W ・ 20/(8 000*32)),每个音频帧的数据个数为Num(Num=k*32), ( )( ∈[1..Num)为帧音频数据集,目( )(j∈I-1.. 323)为第i帧第 子带的音频数据集.计算第i音频帧的音频特征参数: 2.2.1 质心c :反映音频帧内信号的基本频率带. JⅥ_.= (3) 3 2 ‘∑ M - C = 卜 (4) ∑M J一1 2.2.2 均方根:用于衡量音频帧信号的强弱 R.一 (5) 2.2.3 Mel倒谱系数(Mel Frequency Cepstral Coefficient,MFCC):用于表征人的听觉特性 。 (1)计算频域信息:对音频帧进行快速傅里叶变换(Fast Fourier Transformation,FFT),将时域信息置( )( ∈[1.. Num)转换为频域信息Y ( )( ∈Eo..Num 1]): Num一1 Y ( )一∑P ・ ( +1)k一0,1,…,Num—l j为虚数单位 (6) —o (2)计算Mel频率:根据音频的频率范围确定出中心频率(通常定为l KHz),并按“1 KHz以下以线性的形式计算11个频 维普资讯 http://www.cqvip.com 第2期 郭兴吉等:基于特征的音频比对技术 37 率点,1 KHz以上以等比的形式计算12个频率点”的原则确定出24个频点的频率 ( ∈[1..24]): ,{一20 Hz f12=1 000 H 一,l一 +厶 Hz ∈[2..11] (7) 血 血_...一血 f、 { jt ,24—22 000 Hz 根据(7)式的计算结果,代入(8)式,即可计算出对应的Mel频率. r r—了————一、 _6 { +√ )2¨} (3)计算Mel倒谱系数,利用24个三角带通滤波器分别与(6)式计算出的频域信息Y ( )( ∈FO..Num一13)求卷积,得 到每个频率点的对数能量p ( )( ∈[1..241).根据该频点能量进行余弦变换(DCT)即可得到Nel倒谱系数. MFCC )一∑ cos(( 一专)・智)d∈[1’2,…,122 (9) 式中d代表取Mel倒谱系数的个数(本文取前12个). 由上述12个Mel倒谱系数、1个质心和1个均方楸、JI;㈧ 成r 1个音频帧的14维特征参数,从而由各个音频帧的特征 参数构成了音频特征参数矩阵. 3音频比对技术 在音频帧所提取的14维特征参数中,分别对质心、均方根和Mel倒谱系数进行欧氏距离计算,该距离越小,表示相似度 越高,反之,相似度越低 . 3.1质心和均方根bE对 利用加权欧氏距离计算公式按照如图4所示的方式分别计算质心和均方根的欧氏距离w^和G ,对计算出的k个欧氏距 离排序,找出最小的欧氏距离值,分别判定w e 和 ez是 否成立,如果成立,则表明样本音频与被测音频相似,否则不相似. 一耋 = N6 (1O) G一薹 IⅣ 其中,C 表示被测音频第i帧的质心,Cl”表示样本音频第i帧的质 心,N。表示被测音频的音频帧数,N 表示样本音频的音频帧数,R 图4欧氏距离计算示意图 表示被测音频第i帧的均方根,尺 表示样本音频第i帧的均方根. 3.2 Mel倒谱系数比对 3.2.1利用倒谱平均值消去法.计算补偿倒谱系数.其原理是:将倒谱系数每一维看成随机变量,令其期望值为零,则有: N Av,(j)一— 1∑MFCC (J) J∈[1..音频帧数],砀丽 ( ) MFCC ( )一Av ,其中,N为倒谱系数的个数(取值12),A 为 一』一1 第i个倒谱系数的平均值, ( )为补偿后的倒谱系数. 3.2.2相似度比较.对应样本音频帧与被测音频帧的两个经补偿后的12维倒谱系数向量,计算其间的欧氏距离,根据计算出 的欧氏距离值再计算整个样本的平均欧氏距离,根据平均欧氏距离值来判定样本音频与被测音频之间的相似度. 厂Ⅱ——————————————————————~ 19i P ( )=^/∑1Y d11 丽F (d)一 丽 (d) l ∈[1..样本音频帧数] (12) N6 ∑Disp Avi^(D)= 广一k=N 一N6 (13) 』 b 其中, F (d)表示样本的第i个音频帧第d个补偿倒谱系数, 丽 (d)表示被测音频对应的第i个音频帧第d个补偿倒 谱系数,Disp ( )是计算出的两个音频帧之间的欧氏距离,Avi (D)表示样本音频帧的第k个平均欧氏距离.对计算出的k个 欧氏平均距离排序,找出最小的欧氏距离值如果Avi…≤£。成立,则表明样本音频与被测音频相似,否则不相似 ]. 维普资讯 http://www.cqvip.com 38 河南师范大学学报(自然科学版) 2006生 4音频比对技术的实现 利用上述方案,以Delphi和Matlab为实现平台,有效实现了实时音频监播功能+下表为实验结果(音频源来自于CCTV-- i电视台,表中的门限阀值£ ,£2 分别取0.003、0.03和1.5). 寰i 音频比对实验结果对照裹 讨论:表i中使用的音频数据的采样参数为:声道数:2;采样频率:22 050 Hz;采样位数:16.实验结果表明,如果进一步提 高采样频率,对W ,G 和Avi…(D)的值虽然有所改善,但效果不明显,同时带来了计算量的成倍增加的副作用. 5结束语 本文实现了基于特征的音频比对技术方案,为了有效提高音频比对效率,在提取音频特征之前,引入小波变换对音频数 据进行二阶压缩变换,提取的音频特征集由质心、均方根和12维补偿倒谱系数共14维特征参数构成.在音频比对时,分别对 质心、均方根和补偿倒谱系数计算欧氏距离,根据计算出的欧氏距离的最小值与阀值进行比较进而判定被测音频序列中是否 存在样本音频,同时对音频采样参数的选定也进行了探讨. 参 考 文 献 [1]林福宗.小波与小波变换I-D].北京:清华大学,2001. [2]郑方,吴文虎,方棣棠.汉语语音听写机中的语音识别基元Ec].第四届全国人机语音通讯学术会议,北京:1996. [3]卢坚,陈毅松,孙正兴,等.基于隐马尔可夫模型的音频自动分类EJ].软件学报,2002,13(8):1 593—1 597. [4]李国辉,李恒峰.基于内容的音频检索:概念和方法[J].小型微型计算机系统,2000(11);1 l73—1 177. [5]赵雪雁,吴 飞,庄越挺,等.基于模糊聚类表征的音频例子检索及相关反馈[J].浙江大学学报,2005,37(3):264—268 [6]郑方.连续无限制语音流中关键词识别方法研究[D].北京:清华大学,1997. [7]李俊毅.语音评分[D].新竹:台湾清华大学,1998. [8]杜利民,侯自强.汉语语音识别研究面临的一些科学问题I-j].电子学报,1995,23(10):11O—l16. Feature—based Comparison of Audio  f } _1i i l;..} { :{{} l I *。 l GUO Xing—ji .FAN Bing qi。 (1.Department of Computer Science and Technology,Mianyang Normal University,Mianyang 621000,China; 2.Electric Engineering School,Zhengzhou University,Zhengzhou 450000,China) Abstract:Audio comparison,different from speech recognition,does not have the necessity of audio reconstruction.Un— der keeping the major audio information,the original audio frequency is compressed in the way of Haar wavelet transform. Based on audio frames,the centroids reflect the features of major audio information,RMS。and the first 1 2 Mel—Frequency Cepstral Coefficients are extracted,and the Euclidean Distance of these three parameters is computed respectively Finally audio comparison is accomplished according to the relationship between the value of Euclidean Distance and Threshold Value.The experiments show that this algorithm has a nigh accuracy and efficiency,It will play an active role in computer—bases audio rec— ognition and speech recognition. Key words;wavelet transform;audio parameter;Euclidean Distance;audio similarity }

因篇幅问题不能全部显示,请点此查看更多更全内容