1 引言
语音是语言的声学表现,语言是人类交流信息最自然、最有效、最方便的手段。在高度信息化的今天,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。
语音处理的研究目标多种多样,所涉及的学科门类也是丰富多彩的,其中包括了语音和语言学、声学、心理学、认知科学、计算机、数理统计、信号处理、人工智能和模式识别等等,并且它始终与当前信息科学中最活跃的前沿学科,如神经网络理论、小波变换理论、模糊集理论、时频分布理论和混沌与分形理论等保持密切联系并共同发展着。语音处理研究者常常从这些领域的进展中找到突破口,使语音处理技术研究取得突破性的进展,其研究成果具有重要的学术及应用价值。语音信号处理主要包括语音识别、语音合成、语音压缩编码和语音增强等分支。
语音识别技术是指计算机系统能够根据输入的语音识别出其代表的具体意义,进而完成相应的功能。一般的方法是事先让用户朗读有一定数量文字、符号的文档,通过录音装置输入、存储到计算机,作为声音样本。以后,当用户通过语音识别系统操作计算机时,用户的声音通过转换装置进入计算机内部,语音识别技术便将用户输入的声音与事先存储好的声音样本进行对比。系统根据对比结果,输入一个它认为最“像”的声音样本序号,就可以知道用户刚才念的声音是什么意义,进而执行此命令。因此通过语音识别技术,计算机可以“听”懂人类的语言。
语音合成是人机语声的一个重要组成部分,语音合成技术赋予机器“人工嘴巴”的功能,即解决让机器说话问题。是将计算机自己产生的或外部输入的文字信息,比如文本文件内容、WORD文件内容等文字信息,按语音处理规则转换成语音信号输出,即使计算机流利地读出文字信息,使人们
1
通过“听”就可以明白信息的内容。也就是说,使计算机具有了“说”的能力,能够将信息“读”给人类听。这种将文字转换成语音的技术称之为文语转换技术,简称TTS(Text to Speech)技术,也称为语音合成技术。
语音编码就是将模拟语音信号数字化,数字化之后可以作为数字信号传输、存储或处理,可以充分利用数字信号处理的各种技术。为了减小存储空间或降低传输比特率节省带宽,还需要对数字化之后的语音信号进行压缩编码,这就是语音压缩编码技术。语音压缩编码的目的就是用尽可能低的数码率获得尽可能好的合成语音质量,同时又要使编码过程的计算代价尽可能小。语音压缩编码技术在移动通信、卫星通信、多媒体技术以及IP电话通信中得到普遍应用,起着举足轻重的作用。
语音增强就是从带噪语音中提取纯净语音,也即语音消噪。语音增强主要应用范围是降低听觉噪声、识别系统的预处理和线性预测编码的预处理,这种技术对于语音识别和说话人识别是十分重要的。
语音信号分析是语音信号处理的前提和基础,只有分析出可表征语音信号本质特征的参数,才有可能利用这些参数进行高效的语音合成、语音识别、语音压缩编码等处理,其中基音周期是最重要的语音信号的特征参数之一1。
2语音学与语音信号模型
2.1语音的发音机理
我们可以先体会一下乐器的发音机理。有两类主要乐器:一类是小提
琴、二胡等弦乐器。其发音机理是先由物体产生振动,引起空气振动产生声波。提琴手通过改变振动弦的长度来调整音调。另一类是笛子、小号等乐器,其发音机理是由气源产生气流并穿过一条狭长的有孔管道,气流引起笛膜振动产生声波,声波经过笛孔引起谐振。通过改变谐振孔开启的位
2
置调整音调。语音的发音机理类似于管弦乐。 2.1.1人的发音器官
人的发音器官由三个子系统组成:肺和气管产生气源;喉和声带称为声门;由咽喉、口腔、鼻腔组成的声道。肺的发音功能主要是产生压缩气体,通过气管传送到声音生成系统。
喉 喉是控制声带运动的软骨和肌肉的复杂系统。它主要包括下述几部分:1、环状软骨 2、甲状软骨 3、杓状软骨 4、声带。
环状软骨和甲状软骨是主要结构。环状软骨结构上与构成气管的软骨环相似,但是后部则高很多,以支撑声带的后端,甲状软骨位于前端,基本上与环状软骨较高部分相对,其形状使它具有足够的强度以承受声带的拉力。位于喉前端呈圆形的甲状软骨称为喉结。
声带是伸展在喉前、后端直接褶肉,前端由甲状软骨支撑,后端由杓状软骨支撑,而杓状软骨又与环状软骨较高部分相联。这些软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。声带之间的间隙称为声门。声带的声学功能主要是产生激励。
声道 声道包括喉以上的所有发音器官。图2.1所示径向截面图说明了声道的一般结构。声道通常分为以下几部分:
图2.1 1.咽喉 2.口咽 3.鼻咽 4.口腔 5.鼻腔
此外声道还涉及下述器官:
1、会厌 2、下颚 3、舌 4、软腭 5、硬腭 6、牙齿 7、唇
3
2.1.2语音生成
语音的生成动作可分为两种功能,即激励和调制,如图2.2所示, 激励一般在声门处完成。当声波离开声道时还受到嘴唇辐射的作用。
激励 (声门) 调制 (声道) 辐射语音 (嘴唇)
图2.2 语音生成模型
激励功能可以通过发声、耳语、摩擦、压缩和振动几种方式实现。 发声,由声带振动而产生的最重要的激励方式。杓状软骨受肌肉控制产生运动形成声带的闭合与张开。当气体被迫通过声带时就产生振动。
耳语,这时声带呈闭合状态,但杓状软骨之间开一个三角口,空气通过小孔是产生湍流,从而产生一个宽带噪声作为激励信号。
摩擦,如果声道在任一处出现阻塞,通过该阻塞点的气流会引起湍流而产生宽带噪声,其频谱能反映阻塞点位置。这样产生的声音称为激励信号。
压缩,吸气后将声道完全关闭,形成压力,当声道突然打开会导致压力突然消失从而产生爆发气流。如果除阻突然发生,称为塞音或爆破音。如果除阻逐渐发生或产生湍流形成与擦音相联的爆发,称为塞擦音。
振动,如果空气流受迫点不是声带而是阻塞点,则产生振动对激励产生的气流再加入某些不同的信息,就是调制。调制过程主要通过口腔、鼻腔和咽腔不同位置和形状变化而产生的。不同的声道形状具有不同的不同频率。语音的调制就是通过改变声道形状来产生不同的共振峰,从而产生不同的元音和辅音。
2.2语音的听觉机理
听觉是接受声音并将其转换成神经脉冲的过程。大脑受到听觉神经脉
4
冲的刺激感知为确定的含义是一个非常复杂的过程。 2.2.1.听觉器官
人听觉器官分为三个部分:外耳、中耳和内耳,外耳由耳廓、外耳道和中耳组成。耳廓的作用是保护耳孔。外耳道是一个耳管,声音通过耳管到达鼓膜。耳管也有许多共振频率,其中只有一个属音频范围。鼓膜系统位于外耳道内端的韧性锥状物。它能随外界声音的振动将声音发送给内耳听觉神经。鼓膜将中耳与外耳分割开。中耳是一个充气囊,并通过卵形窗和圆形窗这两个小孔与内耳相连。中耳还通过咽鼓管与外界相连,以便使中耳和周围大气之间的气压得到均衡。
中耳含有三条听小骨,分别称为锤骨、粘鼓和镫骨,这三条听小骨的作用是建立鼓膜与卵形窗之间的声音耦合。锤骨与鼓膜相连,镫骨与卵形窗相连而粘骨则介于锤骨和镫骨之间。听小骨的功能有两个,即阻抗变换和限幅。
阻抗变换可以很有效地完成由空气至充液内耳的声能转换。三块听小骨机械连接优点起着类似杠杆的放大作用。 2.2.2.语音的感知
语音的听觉感知是一个复杂的人脑——心理过程。对听觉感知的研究还很不成熟。听觉感知的实验主要还在测试响度、音高和掩蔽效应等。人耳听觉界限的频率范围大约为16Hz-16KHz。其上限随年龄增大而降低。在频率范围低端,感觉声音变成低频脉冲串,在高端感觉声音减小直至完全听不到一点声响。语音感知的强度范围是0-13dB声压级,声音强度太高,感到难以忍受,强度太低则感到寂静无声。
响度,这是频率和强度级的函数。通常用响度(单位为宋)和响度级(单位为方)来表示。人耳刚刚可以听到的声音强度,称为“听阈”。此时响度级定位零方。测量表明听阈值是随频率变化的。
音高,音高也叫基音,物理单位为Hz,主观感觉的音高单位是美。当
5
声强级为40dB,频率为1kHz时,设定音高为1000美。响度与音高之间具有互为补充的关系。例如可以用频率补充声强使人们感觉到响度相同。也可以用声强补充频率使人感觉音高相同。
2.3语音信号模型
由前面介绍的发音机理和语音生成模型可知,有三部分作用施加在语音的声波上。分别是由由声门产生的激励函数G(z),由声道产生的调制函数V(z)和由嘴唇产生的辐射函数R(2)。语音信号的传递函数由这三个函数级联而成,即:
H(z)=G(z)V(z)R(z) (2.1)
2.3.1激励模型
发浊音时,又与声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似与斜三角形的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。
图2.3 斜三角波及其频谱
如图2.3所示,单个三角形波数学表达式为:
1n1cosN12nN1gncos2N200nNN1nN1N2 (2.2)
6
式中,N1为斜三角波的上升时间,N2为其下降时间,由图2.3可以看出单个斜三角波的频谱Gej表现出一个低通滤波器的特性。可以把它表示成z变换的全极点形式:
Gz11ecTZ12 (2.3)
这里c是一个常数,显然上式表示斜三角波形可以描述为一个二级点模型。因此,作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励上述单位斜三角波模型实现。这个单位脉冲串和幅值因子可以表示成下面的Z变换形式:
EzAv (2.4)
11Z所以整个激励模型可表示为:
UzAv1 (2.5) 21cT11Z1eZ在发清音的场合,声道被阻碍形成湍流。所以可以模拟成随机白噪声。因此激励模型表示成下图结构:
声道参数 冲激序列发生器 声门波模型 振幅Av 清浊音判断 声道模型 辐射模型 随机噪声发生器 振幅Au
图2.4 二元激励的语音发声模型
7
图2.4所示的二元激励模型,在早期语言信号处理研究中使用了许多年。尽管人们认识到二元激励过于简化,对于鼻音和擦音,模型还应考虑零点。对于浊擦音需要浊音和清音两种激励激励,并且两种激励不是简单的叠加关系。但是直到八十年代中期开始,新的激励模型才开始取代二元激励模型。 2.3.2 辐射模型
从声道模型输出的是速度波uln,而语音信号是声压波Pln。二者倒比称为辐射阻抗Zl它表征口唇的辐射效应。如果认为口唇张开的面积远远小于头部的表面积,利用单板开槽辐射的处理方法,可以得到辐射阻抗:
ZljLrRrR01z1 (2.6)
RrjLr式中: Rr8a128, Lr23c9这里a是口唇张开的半径,c是声波传播速度。由辐射引起的能量损耗正比于辐射阻抗的实部,其频响曲线表现出一阶高通滤波器的特性。在实际信号分析时,常用所谓预加重技术,即:在取样之后加入一个一阶高通滤波器。这样,模型只剩下声道部分,对参数分析就方便了。 2.3.3声道模型
典型的声道模型有两种。即:无损声道模型和共振峰模型。通过两种方法得到的数字模型本质上没有区别。
2.3.3.1共振峰模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反应在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫作共振峰。由于人耳听觉的柯替氏器官的纤毛细胞按照频率感受排列其位置,所以这种共振峰的声道模型非常有效。从物理声学可以容易推导出均匀断面的共振峰频率。例如对成人声道17cm长,其共振频率计算公式为:
8
Fic2i1/4L i=1,2,3„ (2.7)
i是共振频率的序号c为声道,L为声管长度。按此算出前三个共振频率为:F1=500Hz,F2=1500Hz,F3=2500Hz。由于发音时,声道的形状很少是均匀断面的。因此必须通过语音信号来计算共振峰。
一个二阶谐振器的传输函数可以写成:
Ai1Biz1ciz2 (2.8)
Viz实践表明,用前三个共振峰代表一个元音足够了。对于比较复杂的辅音或鼻音共振峰的个数要到五个以上。多个Vi叠加可以得到声道的共振峰模型:
VzVizi1iMMAi121BiZCiZbzir0nk1Rr (2.9)
1akzk通常N>R,且分子与分母无重根。可见声道模型的传递函数是一个零极点模型,即ARMA过程。
2.3.3.2 无损声管模型 无损声管模型是假定声道由多个等长的不同截面积的管子串联而成的系统,并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内,声道可以表位形状稳定的管道,并可以认为声波是沿管轴传播的平面波,在这些前提下,声管中声波满足如下波动方程:
upAxt (2.10) 1pAAutc2tt式中,px,t是t时刻x处声管中的声压,ux,t是x处声管中的体速度。是声管中空气的体密度,c是声速。A是声管截面积。根据假设,在短时间内,A在各段内为常数,因此上式在第m级的短时解为:
9
xxumx,tumtumtccpmx,tcxxutmumtAmcc (2.11)
这里,um和um分别表示前进方向和反方向的行波。
2.3.3.3 语音信号数字模型 前几节我们分别得到了语音信号激励模型G(z),辐射模型R(z)和声道模型V(z),知道他们的级联组合形式为ARMA模型。这说明语音信号数字模型的传递函数为:
HzGzVzRzbzii0Njj0M1 (2.12)
1az一般情况下,极点个数取8—12个,零点个数取3—5个,在采样率为8k或10k时,H(z)在10—20ms范围内可以很好的反映语音信号的特征。
根据随机过程理论,一个零点可以用若干极点来近似。因此,适当选取极点个数p,可以用全极点模型AR(p)过程来表达语音信号:
HzG1aiz1i1p (2.13)
在早期LPC二元激励模型下。极点个数p一般选为10。对于延时较短或采用后向滤波时,对模型要求比较严,必须加入零点或增加极点个数。如ITU-TG.728标准采用50阶滤波器作信号模型,取得较好效果。实际上,对于男生来说,取20个极点已经足够了,考虑女生后,阶数可以加大到30阶。作者所在的课题组将G.728模型的增益滤波器模型优化后,已经将信号模型的阶降至30,效果十分理想1。
10
3 基音周期的概述
3.1 基音周期的定义及意义1~2
人在发浊音时,气流通过声门使声带产生张驰振荡式振动,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分能量。这种声带振动的频率称为基频,相应的周期就称为基音周期(Pitch),它由声带逐渐开启到面积最大(约占基音周期的50%)、逐渐关闭到完全闭合(约占基音周期的35%)、完全闭合(约占基音周期的15%)三部分组成。
基音周期的估计称为基音检测(Pitch Detection),基音检测的最终目标是画出和声带振动频率完全一致的基音周期变化轨迹曲线,如不可能则尽量找出相吻合的轨迹曲线。
在语音信号处理中,语音信号参数提取的准确性非常重要。只有获得准确的参数,才能利用这些参数进行高效的处理,而在许多参数提取中,基音周期的提取尤为重要,广泛地应用于语音压缩编码、语音分析合成以及语音识别等方面,所以,准确可靠地估计并提取基音周期对语音信号处理至关重要。它直接影响到合成语音是否真实再现原始语音信号,影响到语音识别的识别率,影响到语音压缩编码的正确率。
3.2 影响基音周期检测的因素
由于声道的易变性及声道特征因人而异,而基音的范围又很宽,即使是同一个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情,基音提取的主要困难反映在:
1、语音信号变化十分复杂,声门激励的波形并不是一个完全的周期序列。在语音的头尾部并不具有声带振动那样的周期性,对有些清浊音的过
11
渡帧很难判定它属于周期性还是非周期性,从而对估计基音周期带来一定的影响。
2、从语音信号中去除声道的影响,直接取出仅与声带振动有关的声源信息并非易事。如声道共振峰可能强烈改变声门波形的结构,从而严重影响激励信号的谐波结构,会给基音检测造成困难。
3、语音信号是准周期的,且共振峰结构和噪声有时会影响波峰和过零率,很难准确定位基音周期的开始和结束。
4、区分清音语音和低电平浊音段是导致基音检测困难的另一个重要因素。在许多情况下,清音语音与低电平浊音段之间的过度段是非常细微的,确认它是极其困难的。
5、基音周期变化范围较大,从低音男性的50Hz到高音女性或儿童的500Hz,接近三个倍频程,这也给基音周期的检测带来了一定的困难。另外,浊音信号可能包括很多谐波分量,而基波分量往往不是最强的分量,这些谐波成分叠加在一起,使语音信号的波形变得很复杂,给基音检测带来困难,经常发生基频估计结果比实际基音频率大很多。
由于这些困难,尽管基音提取的方法很多,但迄今尚未找到一个完善的方法可以对各类人群(包括男人、女人、老人、小孩及不同语种)和各种环境条件情况下都能获得满意的检测结果。
3.3 基音周期检测的国内外研究现状
尽管基音周期检测有许多困难,但因为它的重要性,基音周期检测一直是一个研究的重要课题。为了从语音波形中准确地提取基音的工作,使全世界的科学家忙了几十年,从20世纪60年代以来出现了很多种基音周期检测方法,特别是在有噪环境下的语音信号的基音周期检测方面更是提出了许多有效的方法。进行基音检测方面早期研究工作的国家主要有美国等欧美国家,之后,我国在基音检测方面,尤其是对汉语的基音检测工作也取得了很大进展。
12
为了提高基音检测的准确性,降低计算复杂度,人们已经从基于事件的检测方法和非基于事件的检测方法出发 ,开发了许多基音检测算法。 3.3.1非基于事件的基音周期检测方法
非基于事件的方法一般都先将语音信号分为长度一定的语音帧,然后对每一帧语音求平均基音周期,相比基于事件的基音周期检测方法来说,它的优点是比较简单,主要应用于只需要平均基音周期作为参数的语音编解码,语音识别。这些方法有:自相关函数法、平均幅度差函数法和倒谱方法。
传统的自相关函数法(ACF)3~4是Ross等人于1977年提出的,自相关函数法的原理是周期信号的自相关函数将在时延等于函数周期的地方产生一个极大值,因此通过计算语音信号的自相关函数可以估计信号的基音。自相关函数方法适合于噪声环境下,但单独使用经常发生基频估计结果为其实际基音频率的二次倍频或二次分频的情况。
传统的平均幅度差函数法(AMDF)是Ross等人于1974年提出的,平均幅度差函数法无需乘法运算,因而算法复杂度小。倒谱法是由Noll等人于1967年提出的,这种算法的优点是对纯净语音的基音检测精度较高,可以较好地从语音信号中分离出基音信息和声道信息,缺点是算法比较复杂。
平均幅度差法、倒谱法在静音环境下或噪声较小时都可以取得较好的检测结果,但在语音环境较恶劣、信噪比较低时,检测的结果下降较快,难以让人满意。基于此,本文提出了一种抗噪性很好的自相关能量函数(ACEF)和幅度差能量函数(MDEF)相结合的基音周期检测算法,这种方法有效弥补了传统基音周期检测算法的缺点,它继承了自相关函数的抗噪性能,抑制了自相关函数不必要的峰值,进一步加重了用于基音周期判断的基音峰值点,提高了基音周期提取的准确性。
然而,由于非基于事件的基音周期检测方法都是建立在语音信号在一帧内是短时平稳的基础上的,因此,从本质上说,这些方法都无法检测帧内的基音周期的非平稳变化,检测精度不高,对于需要检测出一帧内每一
13
个基音峰值点的语音合成系统来说,无法得到很好的效果。于是需要能够检测出一帧内每一个基音峰值点的基于事件的基音周期检测方法。 3.3.2基于事件的基音周期检测方法5
相比非基于事件的基音周期检测方法而言,基于事件的基音周期检测方法并不多见,如:小波变换方法和Hilbert-Huang变换方法,这两种方法都具有跟踪基音周期变化的能力,能将微小的周期变化检测出来。
小波变换在时域和频域都具有良好的局部性特性,它是一种信号的时间-尺度分析方法,具有多分辨分析的特点,能有效的从信号中提取信息。小波就像一种共轭镜象滤波器,每一次变换,就是把信号分成高频和低频分量,如果对变换后的低频分量再进行变换,得到的将是更为低频的分量,逐次进行下去,就可以得到去除了高次谐波,保留了基频的成分的低频分量,这样就得到近似于只有基频成分的波形,因此可以在时域上得到所有的基音峰值点。
4 基音检测常用方法原理及实现
常用的基音周期检测方法-自相关函数法、倒谱法、平均幅度差函数法都属于非基于事件基音检测方法[5][6],都先将语音信号分为长度一定的语音帧,然后对每一帧语音求平均基音周期,它们的优点是比较简单,主要应用于只需要平均基音周期作为参数的语音编解码,语音识别等。
自相关函数具有很好的抗噪性,但易受半频、倍频错误影响。平均幅度差函数只需加法、减法和取绝对值等计算,算法简单,倒谱虽然算法复杂,但基音估计效果较好。它们在无背景噪声情况下可以精确地提取的语音基音周期,但在语音环境较恶劣、信噪比较低时,检测的结果很差,难以让人满意6~7。
14
4.1基于短时自相关函数的方法
能量有限的语音信号s(n)的短时自相关函数定义为:
Rn()N1m0[s(nm)w(m)][s(nm)w(m)] (4.1)
其中,为移位距离,w(m)是偶对称的窗函数。
短时自相关函数有以下重要性质:
1、如果s(n)是周期信号,周期是P,则R()也是周期信号,且周期相同,即R()R(P)。
2、当τ=0时,自相关函数具有最大值;当0,P,2P,3P„处周期信号的自相关函数达到极大值。
3、自相关函数是偶函数,即R()R()。
短时自相关函数法基音检测的主要原理是利用短时自相关函数的第二条性质,通过比较原始信号和它移位后的信号之间的类似性来确定基音周期,如果移位距离等于基音周期,那么,两个信号具有最大类似性。
在实际采用短时自相关函数法8~9进行基音检测时,使用一个窗函数,窗不动,语音信号移动,这是经典的短时自相关函数法。窗口长度N的选择至少要大于基音周期的两倍,N越大,短时自相关函数波形的细节就越清楚,更有利于基音检测,但计算量较大,近年来由于高速数字信号处理器(DSP)的使用,从而使得这一算法简单有效,而不再采用结构复杂的快速傅里叶变换法、递归计算法等,N越小,误差越大,但计算量较小。
图4.1 (a)原信号 (b)自相关函数
Figure 4.1 (a) Original signal (b) AutoCorrection function
15
图4.2 (a)原信号 (b)自相关函数
Figure 4.2 (a) Original signal (b) Auto Correction function
基于自相关函数的算法是基音周期估计的常用方法,特别适用于噪声环境下的基音提取。自相关函数在基音周期处表现为峰值,相邻两个峰值之间的间隔即为一个基音周期。但通常情况下,基波分量往往不是最强的分量,丰富的谐波成分使语音信号的波形变得非常复杂,给基音检测带来了困难,经常发生基频估计结果为其实际基音频率的二次倍频或二次分频的情况。加之还有清浊混杂等情况,使基音检测成为一大难题。
如图4.2(a)是一帧语音信号,图4.2(b)是这帧语音信号的自相关函数,可以看出自相关函数在基音周期处表现为峰值,这些峰值点之间的间隔的平均值就是基音周期,如图4.2(b)所示可以看出自相关函数检测出的基音周期是原始信号基音周期的一半,这是由于谐波峰值点(箭头所示)的影响,这就是上述缺点中所说的倍频现象。
4.2 平均幅度差函数法
语音信号s(n)的短时平均幅度差函数定义为:
1N1 Fn()s(nm)w1(m)s(nm)w2(m) (4.2)
Rn0其中,w(m)是窗函数,N是一帧语音信号的长度,因为语音信号的浊音段具有周期性,我们假设基音周期为P,则在浊音段,Fn()在
16
P,2P,3P„处将出现谷点,谷点间的距离即为基音周期。
实际应用中,窗函数w1(m)和w2(m)取矩形窗,这样可使短时平均幅度差函数Fn()的定义更简单。短时平均幅度差函数可以写成:
1N1Fn()s(n)s(n)Rn00,1,„N1 (4.3)
由于Fn()只需加法、减法和取绝对值等计算,故算法简单,很易于硬件实现,从而使得短时平均幅度差函数法在基音检测中使用得相当普遍,著名的10阶线性预测声码器LPC-10声码器就采用AMDF法来进行基音周期的提取。研究表明:当在静音环境下或当噪声较小时,AMDF法可以取的较好的检测结果,但在语音环境较恶劣、信噪比较低时,检测的效果很差,难以让人满意。
如图4.3(a)是一帧语音信号,图4.3(b)是这帧语音信号的平均幅度差函数,可以看出平均幅度差函数在基音周期处表现为谷值,这些谷值之间的间隔的平均值就是所要求得基音周期。如图4.4(a)是在这帧语音信号中加入信噪比是2dB噪声后的波形,由图4.4(b)可以看出它的平均幅度差函数中出现了很多谐波分量,基音峰值点基本淹没在这些谐波分量中,影响了基音周期的判断。
图4.3 (a) 原信号(b) 平均幅度差函数
Figure 4.3 (a) Original signal (b) Average magnitude difference function
17
图4.4 (a)加噪信号(b) 平均幅度差函数
Figure 4.4(a) Signal added noise (b) Average magnitude difference function
4.3 倒谱法9
倒谱法被认为是一种比较成功的基音检测方法,但是由于对数运算的引入致使倒谱法在具体数字实现时变得困难,而且还增大了计算量。当采用无噪语音时,用倒谱进行基音提取的效果是很理想的,然而当存在加性噪声时,其性能将恶化。含噪语音的对数功率谱的低电平部分会被噪声填满,掩盖了基音峰值点的周期性。
语音信号不是加性信号,而是卷积信号。为了能用线性系统对其进行处理,可以先采用卷积同态系统处理。经过卷积同态系统后输出的伪时域序列称为原序列的“复倒频谱”。它的定义式可以表示为:
ˆ(n)IDFTln[DFTX(n)] (4.4) c倒谱或称“倒频谱”的定义为:
c(n)IDFTlnDFT[x(n)] (4.5)
DFT是离散傅立叶变换,IDFT是离散反傅立叶变换。
倒谱是复倒谱中的偶对称分量,它们都将卷积运算变为伪时域中的加法运算,使得信号可以运用满足叠加性的线性系统进行处理。复倒谱涉及复对数运算,它是对原信号的模求傅立叶变换,取对数,再求逆傅立叶变
18
换,而倒谱只进行实数的对数运算,较复倒谱的运算量大大减少,它是对原信号的傅立叶变换的模取对数,对所求出的实部再做逆傅立叶变换。
在发浊音时,声门激励是以Np为周期的冲激序列
x(n)ar(nrNp) (4.6)
r0M式中,M是正整数;r是正整数,且0rM;ar是幅度因子;Np是基音周期(用样点数表示的)。根据复倒谱的定义,可以得到x(n)的复倒谱为:
ˆ(n)k(nkNp) (4.7) ck0其中k(1)kkk。
从上式得出的结论为:一个周期冲激的有限长度序列,其复倒谱也是一个周期冲激序列,而且长度Np不变,只是序列变为无限长度序列。同时其幅度随着k值的增大而衰减,衰减速度比原序列要快。倒谱是复倒谱的偶对称分量,它同样具有与基音周期相同的周期,因而能容易且精确地求出基音周期。
汉明窗 s(n) IDFT DFT s(k) lns(k) 检测峰值 基音周期
图4.5 倒谱用于基音周期检测的原理图
Figure 4.5 The principle of pitch detection used Cepstrum
具体实现时,如图4.5所示语音的倒谱是对语音信号加汉明窗,再做离散傅立叶变化,取模,把信号转换到频率内,然后取对数再进行离散反傅立叶变化得到的,因为浊音信号的周期性激励反映在倒谱上是同样周期的冲激,藉此,可从倒谱波形中估计出基音周期,一般认为倒谱波形中二个
19
冲激为基音周期点,两点之间的间隔是基音周期10~11。
图4.6 (a)原信号(b)加窗后的信号(c)倒谱
Figure4.6(a) Original signal (b) The signal added window (c) Cepstrum
如图4.6(a)是一帧语音信号,图4.6(b)是这帧语音信号加汉明窗后的信号波形,图4.6(c)是这帧语音信号的倒谱波形,可以看出倒谱在基音周期处表现为峰值,这些峰值之间的间隔就是基音周期。如图4.7(a)是在这帧语音信号上加入信噪比是2dB的高斯白噪声后的波形,图4.7(b)是加噪语音信号加汉明窗后的信号波形,图4.7(c)是加噪语音信号的倒谱波形,可以看出这帧语音信号的倒谱受噪声影响很大,已经没有明显的基音周期峰值点,无法准确检测这帧语音信号的基音周期。
图4.7 (a)加噪信号(b)加窗后的信号(c)倒谱
Figure4.7 (a) The signal added noise (b) The signal added window(c) Cepstrum
20
5 基音周期算法改进的方向
自相关函数法、倒谱法、平均幅度差函数法都是经典的基音检测方法,但实际应用中,语音信号的环境千差万别,有的是安静环境,有的有强烈的背景噪声,有的方法没有考虑声道的影响,有的方法没有考虑发音者的个体差异,有的方法在预处理和后处理上欠妥,有的方法不管什么场合都采用传统的语音模型,而基音检测的健壮性及准确性却与对象、方法、环境密切相关,这使得上述方法在运用中,在安静的实验室环境下,有较高的准确性,但一到噪声环境,准确性剧减。有的对选定的人群有效,对任意的个体性能陡降,有的在说话者情绪平静时有效,但一遇情绪激动,则大打折扣。所以说,至今没有一种万能的方法在任何情况下都能准确可靠地估计出基音周期,但是我们可以在以下方面作一些改进和突破89。
1、在预处理上下功夫
由于实际的语音信号常常混和着强烈的背景噪声及共振峰频率,从而使语音信号的波形变得非常复杂,这常常引起基音检测的错判和误判。预处理的主要任务是在基音检测前,尽量去除背景噪声的影响及第一共振峰的影响,这对自相关法和平均幅度差函数法是非常必要的。
2、在后处理上下功夫
虽然语音信号中的浊音信号的周期性从波形上观察可以看得很明显,但是其形状比较复杂,这使得传统的基音检测算法很难做到处处准确可靠。在提取基音的过程中,无论采用哪种方法提取的基音周期轨迹与真实的基音周期轨迹都不可能完全吻合。实际情况是大部分段落吻合,而在一些局部段落和区域中有一个或几个基音频率估计值偏离,甚至远离正常轨迹,基音周期估值落在实际基音周期的倍频或分频所对应的周期等情况时有发生,这种情况就是基音轨迹产生了若干错误点。这些错误点主要包括倍频点、半频点和随机错误点,所以,为了去除这些错误点,对上述算法已经求得的基音轨迹进行平滑的后处理是非常必要的。因此,用某种平滑技术来纠正个别估值的错误是必要的。常用的平滑技术主要有:中值滤波平滑
21
处理、线性平滑、动态规划平滑处理。
3、在语音信号的产生模型上寻找突破口
传统的语音产生模型见图5,它起源于1930年Duddley发明的声码器,其基本思想是将激励和系统相分离,使语音信号解体来分别进行描述而不是直接研究信号波形的本身。传统的基音检测方法都是建立在这个模型上的,使用中,对每帧语音信号只进行一次清浊判决,若判为浊音,则以基音周期间隔的脉冲序列作为该帧的激励信号;若为清音,则以随机噪声作为该帧的激励信号,实际中,清浊信号的过渡段是很难区分的,且激励信号也常常含有类噪声成分,很难加以区分。
4、适当考虑个性特征及情感、发音力度的影响
近年来国内外的研究表明,基音周期的大小与个人的发音习惯及性别、年龄、发音时的力度及情感有很大的关系,传统的基音检测都是以“冷漠的”语音为研究对象的,而在实际中,人在发音时,常常带着惊讶、喜悦、
紧张、愤怒、悲伤等复杂的感情,有时,环境噪声引起Lombard效应1011(说
话人在高噪声环境中为了使自己的声音能被听到,有意或无意地提高嗓音,致使其发音速度及质量发生变化),在这些感情和力度的驱使下,人的声带开启到最大面积时间及关闭的速度与平静时相比,都要发生变化,同时,共振峰的带宽和位置都要发生畸变,这些变化不可避免地影响到基音周期。
基音周期 Av 周期脉冲 发生器 声门脉 冲模型 G(z) 清/浊音开关 白噪声 发生器 AU 声道 模型V(z) 辐射 模型R(z) 语音信号s(n)
图5 二元激励的语音发声模型 Figure5 Speech pronounce model of two urges
22
6 结论
基音检测一直是语音信号处理中的一大难题,短时自相关函数法、短时平均幅度差函数法、倒谱法等几种经典的基音检测方法, 都有各自的优点和各自的适用场合, 同时也有其相应的不足。如果能将这些算法的优点融合起来, 克服缺点, 必能取得更好的效果, 增加基音检测的准确性及鲁棒性。
致谢
经过半年的忙碌和工作,本次毕业设计已经接近尾声,作为一个本科生的毕业设计,由于经验的匮乏,难免有许多考虑不周全的地方,如果没有老师的督促指导,以及一起工作的同学们的支持,想要完成这个设计是难以想象的。在这里要感谢指导我的李娟老师。她从选题的确定,论文的写作、修改到最后定稿都给了我悉心指导。特别是她多次询问写作进程,并为我指点迷津,帮助我开拓思路,精心点拨,热忱鼓励。她严肃的教学态度,严谨的治学精神,精益求精的工作作风深深地感染和激励着我。在此,谨向李娟老师致以诚挚的谢意和崇高的敬意。
参考文献
[1] 张刚,张雪英,马建芬. 语音信号处理与编码[M]. 北京:兵器工业出版
社.2000,1~6.
[2] 李娟. 几种基音周期算法性能比较[J]. 运城学院学报. 2010,35(02):
35~37.
[3] 柏静,韦岗. 一种基于线性预测与自相关函数法的语音基音周期检测算
法[J]. 语音技术学报. 2005,24(4):112~119.
[4] 赵建伟,楼红伟,刘重庆. 噪声环境下的基音检测方法[J]. 红外与激光
23
工程. 2002,19(1):11~23.
[5] 刘建方,邓箐,吴文虎. 基于混合幅度差函数的基音提取算法[J]. 电子
学报. 2006,9(10):78~91.
[6] Yu-Min Zeng,Zhen-Yang Wu,Hai-B in Liu,Lin Wou. Modified AM DFP itch
Detection Algorithm[J]. Proceedings of the Second International Conference on Machine. 2003,19(4):35~46.
[7] 张杰,龙子夜,秦玉英. 语音信号处理中基频提取算法综述[J]. 电子科
技大学学报. 2010,23(1):135~144.
[8] 郑继明,王劲松. 语音基音周期检测方法[J]. 计算机工程学报. 2010,
3(10):9~17.
[9] 王小亚. 倒谱在语音的基音和共振峰提取中的应用[J]. 工程应用学报.
2004,29(1):77~83.
[10] Zhi-Xia Zhang,Hui-Lian Han,Hong-Wei Xue. Analysis of Speech
Recognition
Technology.
Computer
Development
&
Applications,2008,12(2):51~58.
[11] KE Shi-jie,YUE Zhen-jun. Fractal Theory and its Application in Speech
Signal
Processing.
Computer
Knowledge
and
Technology.2009,07(3):66~72.
24
因篇幅问题不能全部显示,请点此查看更多更全内容