您的当前位置:首页基于线性预测分析的语音信号压缩感知

基于线性预测分析的语音信号压缩感知

来源:小侦探旅游网
第29卷第4期 2012年4月 计算机应用研究 Application Research of Computers Vo1.29 No.4 Apr.2012 缩感知 术 基于线性预测分析 的语音信号压 王红柱,陈砚圃,高悦,王浩 (西安通信学院,西安710106) 摘要:根据语音信号的特点,提出了一种基于线性预测分析的合成矩阵作为语音信号的稀疏变换域,并验证 了语音信号在该域上的稀疏特性。由语音信号和随机高斯矩阵构造相应的观测,采用正交匹配追踪算法重构原 始语音信号。实验表明,语音信号在新的变换域上的重构性能要优于DCT域,且具有较高的分段信噪比和平均 意见得分。 关键词:压缩感知;语音信号;稀疏性;线性预测分析;正交匹配追踪 中图分类号:TN912.3 文献标志码:A 文章编号:1001—3695(2012)04—1335-03 doi:10.3969/j.issn.1001-3695.2012.04.037 Compressed sensing for speech signal based on linear prediction analysis WANG Hong—zhu,CHEN Yan—pu,GAO Yue,WANG Hao (Xi’an Communications Istnitute,Xi’an 710106,China) Abstract:This paper presented a new speech signal sparse domain--synthesis matrix based on linear prediction technology based on the features of speech signal,and veriifed the sparsity of speech signal in the new sparse domain.By speech signal and the Gaussian random matrix,used OMP to reconstruct the original speech signa1.Experimental results demonstrate that the performance of the speech recovered using compressed sensing for speech signal based on linear prediction analysis is better and reconstuctred signal has good segment signal to noise ratio and mean opinion score,compared with DCT domain. Key words:compressed sensing(CS);speech signal;sparsity;linear prediction analysis;orthogonal matching pursuit (OMP) 近年来,由Donoho…以及Candes等人 提出了一种新颖 的信息获取理论,即压缩感知(cs)理论。cs理论与传统奈奎 斯特采样定理不同,它是一种边采样边压缩理论,将传统信号 压缩中的采样和压缩两个过程合二为一,在某种意义上突破了 奈奎斯特采样定理的限制,是对传统信号采样方法的一次新的 矩阵。 1 压缩感知基本原理 信号本身或在某个变换域上具有稀疏性,是压缩感知理论 应用的基础和前提,只有确保信号的稀疏度,才能保证信号的 恢复精度。根据调和分析理论,长度为Ⅳ的一维离散时间信 号 =[ , ,…, ]可表示为一组标准正交基的线性组合: = r=∑ri 1 1 革命。该理论指出:只要信号是可压缩的或在某个变换域是稀 疏的,那么就可以以远低于奈奎斯特采样速率的方式对其进行 采样,通过优化逼近的方法近似无损地恢复出原始信号 J。 压缩感知理论一经提出,就在信息论与编码、信号恢复、有损压 缩、光学和雷达成像、无线通信等领域受到高度关注,迅速成为 信号处理研究的前沿和热点,并被美国科技评论评为2007年 度十大科技进展之一。 目前基于cS理论的语音信号编码研究还不多,尚属于起 (1) 其中: =[妒 , :,…, ], 为N X 1的列向量,向量r是 信号 的加权系数序列。若向量,中非零元素的个数为 ,即 ll rl10=K,则称r为 的 稀疏表示 。 根据cs理论,信号的压缩是通过观测矩阵 (M XN的矩 阵,M<N)投影得到的。 Y= : r f2) 步阶段。Sreenivas等人 基于激励声道模型研究了语音信号的 稀疏特性,将cs理论成功应用于稀疏激励信号的处理中。郭海 燕等人 在KLT域验证了语音信号的稀疏特I生,提出了基于近 似KLT域的语音信号压缩感知。孙林慧等人 在DCT域分析 了语音信号的稀疏特性,给出了基于cs理论的分布式语音压缩 重构的框架。他们从不同角度研究了语音信号的稀疏特性,为 只要观测矩阵 和变换基 极不相似,就可以以高概率 从 ( ≥K×log(N/K))个测量值中准确地恢复K个系 数 J。研究表明,随机高斯矩阵与大多数正交矩阵不相关 ]。 Cs的重构实际上就是求解欠定方程组Y= r,。在信号 是稀疏或者可压缩的前提下,求解该欠定方程问题可转换为最 小0一范数问题: ^ 语音信号压缩感知的研究提供了全新的思路和方法。 基于压缩感知理论,针对语音信号的特点,本文提出了一 种新的语音信号的稀疏变换矩阵,即基于线性预测分析的合成 收稿日期:2011—07—28;修回日期:2011-09—15 r=arg min l lrI l0 s.t.Y= t/,r (3) 基金项目:国家自然科学基金资助项目(61072125) 作者简介:王红柱(1986・),男,安徽灵璧人,硕士研究生,主要研究方向为智能信息处理(whzhu1986@163.con);陈砚圃(1963.),男,河北元氏人, 副主任,教授,博士,主要研究方向为信号与信息处理;高悦(1973一),女,陕西西安人,讲师,博士,主要研究方向为信号与信息处理;王浩(1987.),男,陕 西清涧人,硕士研究生,主要研究方向为智能信息处理. ・1336・ 计算机应用研究 2.2语音信号的压缩与重构 第29卷 对于0一范数的优化问题,实际上是NP难问题[B],就是在 多项式时间内难以求解,甚至无法验证解的可靠性。Donoho 的研究表明,当@满足一定条件时, 优化算法与 优化算 法同解 J,所以通常转换为 优化问题来求解。 ^ Candes证明了只要信号在某一个正交空间具有稀疏性, 就能以较低的频率(M<<N)采样信号,同时以较高的概率近 似无损地重构该信号” 。通过分析可知语音信号的稀疏变换 。 . 矩阵 并非正交矩阵,但是随机高斯矩阵作为观测矩阵与大 .。 nargmiⅣ Ⅲl ・ ・Y (4) 通过Lagrange乘法,凸优化等式(4)可以表示成 ^ . 多数矩阵不相关 ,而且残差信号e(n)是语音信号 (n)在 O ..域上的唯一等价表示。这说明可以将H矩阵应用于语音信号 (5) .~...~ r=arg arin l1 rl1 l rE^“ l1 Y一唾, ,l1 i 的压缩感知中。 8 6 4 2 4 o o。... ... 式(5)可以看做是式(3)的凸化,常用的求解算法有基追踪 (basis pursuit,BP)59]、匹配追踪(match pursuit,MP) 和正 交匹配追踪(OMP)算法” 等。 2 p 3 2 1 ~...O... ...~ 一 ..... ...2语音信号压缩感知 0 翟o —2 .1 ~ ...0...—4 —2 2.1 语音信号的稀疏表示 -6 —3 线性预测(1inear prediction,LP)分析是现代语音信号处理 时域样点 变换域系数向量维数 中最核心的技术之一,在语音编码、合成、识别等语音处理领域 (a)清音帧时域波形 (b)清音帧H域系数 得到了广泛应用。在AR(autogressive)模型中,由于语音样点 之间存在相关性,所以一个语音信号的抽样值 (n)可以用过 去的P个取样值的线性组合来逼近: 口 (n)= alx(n—i)+e( ). (6) ‘ I 其中:U 是预测系数,e(n)是自回归滤波器的激励。通过最小 均方误差(1east mean square,LMS)准则,使实际语音样值与线 时域样点 变换域系数向量维数 性预测样值最小,可以确定唯一的一组线性预测系数{o }。由 (c)浊音帧时域波形 (d)浊音帧 域系数 式(6)可得到LP分析的残差e(n)为 图1语音信号的时域波形及在H域上的系数 e(n): (n)一 n。0  (n—i) (7) 基于LP分析的语音信号压缩感知模型如图2所示。针对 经汉明窗和矩形窗分帧的语音信号,分别利用LP分析技术和 将残差写成向量的形式为:e=Tx。其中: cs技术,提取线性预测系数向量a和观测向量y。语音信号 (1) 的重构以观测向量 和线性预测向量a为已知条件,利用解优 (2) 化的方法实现语音在H域上的重构。 ● : e(』v) (jv) 萋号H  譬l霜 _J囊 重 构 语 H 音 Ⅳ= 语音信号的压缩分为两个阶段:a)通过观测矩阵 的肘 个行向量{ }对语音信号进行投影获取观测向量y;b)通过 由LP分析可知,浊音的残差信号e是以基音周期为周期 线性预测分析获取每帧语音信号的P个线性预测系数,用于构 重复的单位脉冲序列,即残差信号仅在基音周期的整数倍位置 造合成矩阵H。 上有较大的幅值。这说明矩阵7-去除了语音信号x相邻样点 语音信号的重构就是解优化的过程,即通过求解厶优化 之间的相关性,因此将矩阵7_称之为分析矩阵。那么语音信 问题获得语音信号在稀疏域上的稀疏系数,利用合成矩阵将稀 号可以近似表示为 疏系数投影到语音信号域,从而实现信号的重构,如式(9)。 =T一 0=Ho (8) ^ . e=arg n l le II l+’,『I y一 He ll i rE V 其中:H为分析矩阵7I的逆矩阵,将残差信号0映射到语音信 :号域实现语音信号的重构,因此将H矩阵称为合成矩阵。 H (9) 本文采用合成矩阵一作为语音信号的变换矩阵,发现浊 本文将使用OMP算法来重构语音信号x在合成矩阵H ^ 音信号具有较好的稀疏性,而清音信号则不具有稀疏性。这是 上的稀疏残差信号e。该算法根据观测向值y 与恢复矩阵 由于清音帧的残差信号是一个高斯白噪声序列,如图1所示。 (O= H)列向量的相似程度来确定向量e中非零元素的 图1中的每帧语音为25 ms,预测阶数为10,采样率为8 kHz。 位置,再通过解最小二乘问题得到向量中的非零值。 由于语音的大部分能量都集中在浊音部分,而清音能量通常较 小,故清音帧的非稀疏性对语音信号在矩阵H上的cs性能影 3实验结果分析 响不大。 本文定义信号的压缩比d、分段信噪比SNRseg作为衡量 吨  第4期 重构语音质量的客观评价方法: d:M/N 1 M 王红柱,等:基于线性预测分析的语音信号压缩感知 表1 各方案下语音信号重构MOS对比 (10) A . ・1337・ SNRseg=音 lg( / 一 ) (11) 其中: 为原始语音信号的总帧数。实验采用ITu P.862标准 对重构语音信号的质量作出主观评价。 实验对象为不同说话人的语音信息,采样率为8 kHz,取 线性预测阶数P=10,N=200,M:4 K,观测矩阵 为M×N的 随机高斯矩阵。实验主要研究语音信号在 上的cs性能以 及不同变换矩阵上重构语音信号每帧的信噪比和分段信噪比, 并给出重构语音的主观评价。 实验1分析语音信号在H域上的Cs性能。在压缩比为 从表I中可以看出,在不同压缩比下,由合成矩阵 作为 稀疏变换域重构出的语音信号的MOS明显高于DCT域。非 正式主观听力测试也表明合成矩阵H重构的语音在压缩比小 于0.3时仍有很好的可懂度和自然度,而DCT域重构的语音 0.5条件下,实验对不同说话人的语音进行了分析,在此仅选 取具有代表性的一帧浊音信号。 . 如图3所示,除两端重构语音与原始语音有一定误差外, 基本上可以实现语音信号的精确重构,实验算出其重构信噪比 为23.15 dB。这是由于采用自相关法获取线性预测系数时引 入的误差,为了尽可能减小两端的误差,在线性预测阶段使用 两端具有平滑过渡特性的汉明窗,在cs观测阶段使用能够保 证语音信号时域特性的矩形窗。 图4给出了语音信号的部分帧在不同稀疏变换域上重构 的信噪比。可以看出,H矩阵上语音信号的重构信噪比要高于 DCT域,并且实验算出在 矩阵和.DCT域上重构的分段信噪 比分别为15.72 dB和8.95 dB。 ∞ 丑 迎望 样点 帧号 图3浊音信号的重构 图4各方案下的各帧重构信噪比 实验2分析合成矩阵H作为变换矩阵在不同压缩下重构 语音信号的分段信噪比。DCT域上的语音压缩方案采用矩形 窗连续分帧。 图5描述了不同压缩比下 域重构语音信号的分段信噪 比,并将其与DCT域的重构性能相比较。在不同压缩比下,本 方案下重构信号的分段信噪比明显高于DCT域。因而在通信 双方具有相同观测矩阵的情况下,发送方仅需多发1O个线性 预测系数,其获得的重构语音的分段信噪比要高于DCT域重 构的分段信噪比。 16 14霎1 2。 8 萋: M| 图5各方案下的重构信号分段信噪比 实验3采用ITU P.862标准分别对实验2中由H域和 DCT域作为变换域重构出的语音信号作主观评价,得到不同 压缩比下的平均意见分(mean opinion score,MOS),如表1 所示。 质量较差,能感觉明显的听觉质量下降。 4结束语 本文提出了一种基于线性预测分析的语音信号压缩感知 方法。首先结合线性预测模型给出了基于线性预测分析的合 成矩阵作为语音信号的稀疏变换域;然后对语音信号在新的变 换域上的稀疏特性进行了实验验证;最后分析了语音信号在该 域上的cs性能。实验表明,语音信号在合成矩阵上具有近似 的稀疏特性和较好的重构性能。实验也证明了只要信号的稀 疏矩阵与观测矩阵不相关且可逆,就可以将该矩阵作为变换矩 阵应用于信号的压缩感知中。 参考文献: [1]DONOHO D.Compressed sensing[J].IEEE Trans orl Information Thenry,2006,52(4):1289-1306. [2]CANDES E J,ROMBERG J,TAO T.Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency informa- tion[J].IEEE Trans oD Information Theory,2006,52(2):489— 509. [3]CANDES E,TAO T.Near optimal signla recovery from random projec— tions and universal encoding strategies[J].IEEE Trans on Informa— tion Theory,2006,52(12):5406.5425. [4]SREENIVAS T V,BASTIAAN K W.Compressive sensing for sparsely excited speech signals[C]//Proe Of IEEE ICASSP.Washington DC: IEEE Computer Society,2009:4125-4128. [5]郭海燕,杨震.基于近似KLT域的语音信号压缩感知[J].电子与 信息学报,2009,31(12):2948—2952. [6]孙林慧,杨震.基于压缩感知的分布式语音压缩与重构[J].信号 处理,2010,26(6):824—829. [7]石光明,刘丹华,高大化,等.压缩感知理论及研究进展[J].电子 学报,2009,37(5):1070—1081. [8]BARANIUK R.A lecture on compressive sensing[J].IEEE Signal Processing Magazine,2007,24(4):118—121. [9]CHEN S S,DONOHO D L,SAUNDES M A.Atomic decomposition by basis pursuit[J].SIAM Review,2001,43(1):129.159. [1O]NEFF R,ZAKHOR A.Very low bit rate video coding based on matc— hing pursuits[J].IEEE Trans off Circuits and Systems for Video Technology,1997,7(1):158—171. [1 1]NEEDELL D,VERSHYNIN R.Uniform uncertainty principle and sig- nal recovery via regularized orthogonal matching pursuit[J].Found Comput Math,2009,9(3):317—334. [12]CANDES E.Compressive sampling[C]//Proc of the International Congress of Mathematicians.Madrid,Spain:European Mathematical Society Publishing House,2006:1433.1452. 

因篇幅问题不能全部显示,请点此查看更多更全内容