您的当前位置:首页说话人识别技术及其应用

说话人识别技术及其应用

2024-06-25 来源:小侦探旅游网
维普资讯 http://www.cqvip.com 2007. ̄,第12期 中图分类号:TN912.3 文献标识码:A 文章编号:1009—2552(2007)12—0023—03 说话人识别技术及其应用 檀蕊莲 ,刘建平 ,李 哲 (1.武警工程学院,西安710000;2.空军工程大学,西安710086) 摘要:说话人识别技术作为一种身份识别的手段具有独特的优势,是语音信号处理中的重要 组成部分,近年来也逐渐成为国际上研究的热点。综述了说话人识别技术的发展及其相关技术, 对现有的各种方法的优点和不足进行了分析,并对其在军事上的应用进行了探讨。 关键词:说话人识别;信号处理;军事应用 Speaker recognition technology and its applications TAN Ruj.1ian ,LIU Jian.ping ,LI Zhe2 (1.D College 0f PoliceForce,Xi’all 71(!I30,Clq ̄Ila;2.AirForceEngineeringUnivw ̄ty,Xi’锄710086,Q Abstract:As one of the method of individual identiifcation,speaker recogniiton technology is also hte important part of speech processing.It has its superiority,and it is one of the current research hotspots.The principles nad development of hte speaker recognition are introduced in detail.Its advantages and disadvantages are also discussed in this text.Some of its military applications are listed in the lsat. Key words:speaker recognition;singal processing;military applications 1 说话人识别的历史与现状 款机中。欧洲电信联盟在电信与金融结合领域应用 对声纹识别的研究始于2O世纪30年代。早期 声纹识别技术,于1998年完成了CAVE(Caller 的工作主要集中在人耳听辨实验和探讨听音识别的 Veriifcation in Banking and ̄ielecommunication)计划,并 可能性方面…。随着研究手段和工具的改进,研究 于同年又启动了PICAsS0(Pioneering Call Authentica. 工作逐渐脱离了单纯的人耳听辨。Bell实验室的 tion for Secure Service Operation)计划,在电信网上完 L_G.Kesta目视观察语谱图进行识别,提出了“声纹 成了声纹识别。同时,Motorola和Visa等公司成立 (voiceprint)”的概念。之后,电子技术和计算机技术 了V.commerce联盟,希望实现电子交易的自助化, 的发展,使通过机器自动识别人的声音成为可能。 其中通过声音确定人的身份是此项目的重要组成部 Bell实验室的S.Pruzansky提出了基于模式匹配和概 分。其他的一些商用系统还包括:rI1'公司的 率统计方差分析的声纹识别方法,而引起信号处理 SpeakerKey、Keyware公司的VoiceGuardina、T-NETIX 公司的SpeakEZ等。 领域许多学者的注意,形成了声纹识别研究的一个 国内开展声纹识别研究比较早的机构有北京大 高潮,其间的工作主要集中在各种识别参数的提取、 学、中科院声学所、中科院自动化所、清华大学等,并 选择和实验上,并将倒谱和线性预测分析等方法应 先后得到了国家自然科学基金重大和重点项目、攀 用于声纹识别。 登计划等基金的支持,取得了丰硕的研究成果。 70年代末至今,声纹识别的研究重点转向对各 2说话人识别的基本问题 种声学参数的线性或非线性处理以及新的模式匹配 2.1物理基础 方法上,如动态时间规整、主成分分析、隐马尔可夫 语音是由发声器官运动产生的。发声器官包括 模型、神经网络和多特征组合等技术。如今,声纹识 别技术已逐渐走人实际应用,AT&T应用声纹识别 收稿日期:2007—06—25 作者简介:檀蕊莲(1982一),女,硕士研究生,研究方向为信号与信 技术研制出了智慧卡(smart card),已应用于自动提 息处理。 维普资讯 http://www.cqvip.com 喉、声道和嘴。气流通过喉中的声门,引起声带的周 期性振动,形成周期性的脉冲串并进入声道,周期性 脉冲的周期称为基音周期。气流从喉向上经过口腔 或鼻腔后从嘴或鼻孔向外辐射,其间的传输通道称 为声道。声道是具有某种谐振特性的腔体,当气流 通过时,输出的气流频率特性即声门脉冲串的特性 取决于声道的特性。嘴的作用是完成气流的向外辐 射,嘴张开时的形状对语音频谱有影响,但较声道次 之。语音产生机理如图1所示。 2说话人识别系统原理图(虚线内为可选部分) 人的语音特征,又包含说话人的个性特征,并且相互 交织在一起,以复杂的形式存在于语音参数中,目前 ))略 还没有建立起准确分离和提取这两种特征的技术。 ②说话人模型的建立和模型参数的训练。这包 括模型结构的表示和参数估计算法。 ③测试音与说话人模型的匹配距离计算。实际 上,采用的说话人模型结构对应于说话人识别的不 肌力 同方法。随着技术的发展,说话人识别的方法不断 图1语音产生机理 出现,包括矢量量化,模板匹配法,隐马尔可夫模型, 发声的器官和过程确定了语音中特定说话人信 高斯混合模型,人工神经网络方法等。 息的行式,其中声道的形状是最重要的生理因素。 ④识别或判决策略。根据匹配距离的计算结果 另外,发声的习惯,包括发声速度、韵律和口音构成 判决说话人是否是所声称的说话人(说话人确认)或 了语音中特定说话人信息的后天行为因素。语音中 说话人到底是谁(说话人辨认)。 的特定说话人信息构成了声纹识别的物理基础。 ⑤自适应部分。考虑人的状况不断变化(有的 2.2说话人识别的关键技术 系统设有这一部分),从而能够根据说话人识别的结 (1)说话人识别的分类 果对其模型参数进行实时更新。 说话人识别按其最终完成的任务可分为两类: (3)说话人识别的几种算法模型 说话人确认(speaker verification)和说话人辨认 在说话人识别技术中。目前研究最多的方法有: (speaker identification)。前者是判定待识语音是否与 ①模板匹配法 J:即在训练过程中从每个说话 某参考人相符,它只是一个肯定与否定的二元判决 人发出的训练语句中提取出能区分描述各说话人特 问题;后者则是判断待识语音是多个参考说话人中 性的特征矢量,以此作为模板。识别时,对待识别语 的哪一个所说,是一个多者选一的问题。 音用同样的处理方法提取识别模板。并且按一定匹 此外,按被输入的识别用测试语音来分,又可分 配规则与所有的参考模板进行比较。其最常用的方 为文本无关(test.independent),文本有关(test.depen. 法是动态时间规整(DTW)法。在动态时间规整的过 dent)和文本指定型(test-depend)三类。所谓文本无 程中,同时汁算两个模板的距离测度并且形成判决 关就是指无论说什么话都可以进行的说话人识别, 函数。 文本有关就是只能用规定内容的语句来进行识别, ②概率模型法_4 J:即训练过程中,在从某人的一 而文本指定型则是在每一次识别时必须先由识别装 次或多次发音中提取出有效的特征矢量的基础上, 置向说话人指定需发音的文本内容,只有在系统确 为其建立相应的模型,最后依靠得到的模型进行匹 认说话人对指定文本内容正确发音时才可以被接 配,从而达到识别的目的。其中最常用的模型是隐 受,这样做可以防止本人的语声被盗用。 马尔可夫模型(HMM)。它能很好地描述语音信号 (2)说话人识别原理 』 的平稳性和可变性,能将人的声道特性用HMM比 由图2可以看出,要实现说话人识别,应解决如 较准确地描述出来。 下基本问题: ③人工神经网络法(ANN) J:人工神经网络以 ①语音信号的预处理和特征提取,即提取能够有 类比于生物神经系统处理信息的方式、用大量简单 效表征说话人个性特征的参数。实际上现在采用的 的处理单元并行连接而构成一种独具特点的信息处 特征都是从语音信号模型中得到的,它们既包含说话 理系统。这种系统具有自组织、自学习的能力。它 一24一 维普资讯 http://www.cqvip.com 可以随着经验的积累而改善自身的性能。正是利用 这…・点人们能对它训练,更好地提取语音样本中所 包含的关于说话人的特征。 现将上面所用到的方法进行分析比较,如表1 所示。 表1 DTW。HMM。ANN比较 由于在计算机信息处理中,录音的过程要经过模拟 到数字的信号转换,放音的过程还要经过数字到模 拟的信号转换,因此,即使窃密者使用录音设备录下 合法用户的声音进行声纹身份认证,经过从模拟到 数字、再从数字到模拟的两次信号转换,声音频谱会 有明显衰减和失真,这种失真很容易被认证程序分 辩出来。所以,依靠录音登录也不能通过声纹认证。 适当调节声纹认证严格程度的阈值,保证在对声音 变化和信道差异有一定鲁棒性的前提下,声纹认证 的“错误接受率”和“错误拒绝率”可以降至1% 3 说话人识别的军事应用前景 说话人识别技术在军事领域有着重要的应用价 值。一些说话人识别技术就是着眼于军事活动而研 发,并在军事领域首先应用、首获成效的。目前,说话 人识别技术已在军事通信、军事保密、军事情报和指 挥办公自动化等方面得以应用,在日常军事活动和高 技术条件下的局部战争中都发挥了重要作用 ]。 3.1军事保密 说话人识别技术在军事保密中有着重要的应用 价值。在军事计算机系统和核心要害部位的封闭管 理中,应用说话人识别技术进行身份认证,具有很高 的精确度,可进一步增加系统的安全性。比如,一些 应用了说话人识别技术的新型计算机安全产品,可 以在普通的USB加密钥匙基础上,增加声纹认证功 能,并对计算机系统进行加密,保护计算机系统中的 重要文件不被非法窃取、浏览、篡改、删除或破坏。 它符合国家安全标准,对文件的加密、解密操作极其 简便,提供多重安全保护,能可靠地防止非法用户进 入、使用和窃取电脑系统。在一些军事要地的核心 部位,应用说话人识别技术实施门禁管理,可以有效 辨识合法进出者。保密管理系统根据输入的自然语 音信号,进行声纹身份认证,并自动开启或闭合门禁 没施。 3.2指令确认 在军事行动中,通过电话发出命令是常用的信 息传递方法。应用说话人识别技术,可以对发出命 令者进行身份确认。避免出现敌方利用我方信道伪 装我指挥员发出假命令,干扰我方军事行动的情况。 以下。 3.3情报侦听 说话人识别技术对说话人身份确认的作用在情 报侦听中具有相当重要的价值。目前该技术在军事 情报工作中已经有所应用,据报道,曾迫降在我国海 南机场的美军EP一3侦察机中就安装了声纹识别侦 听模块。这一声纹识别系统功能强大,只要被侦察 者通过无线电进行对话,该系统便能查明通话者的 身份,尤其是高层领导者的身份。美军正是靠着这 套功能强大的系统,掌握了其他国家大量绝密情报。 五角大楼曾专门邀请语言学家,对被侦察国家的语 言进行了全面深入的研究,开发出了一套独特的电 子监听系统,只要美军截获到对方的通话,这套系统 能立即识别出通话者的身份,从而判断出从中掌握 到的情报的价值到底有多大。当截获到对方通话 后,监听系统能自动删除杂音,通过与声音数据库相 对照,准确识别出通话者身份。据美国《华盛顿时 报》披露,美国国家安全局一直将声音识别技术当做 研究重点。比如,利比亚领导人卡扎菲就是美国情 报机构重点识别的对象,现在,只要卡扎菲利用利比 亚的通信网络进行通话,声音识别系统就会立即提 醒工作人员:卡扎菲正在通话,请注意。事实上,早 在7O年代,美国国家安全局就已经掌握了移动电话 声音识别技术,如果苏联领导人勃列日涅夫乘车行 驶在莫斯科的某条大街上,他用移动电话跟其他人 说话,国家安全局的声音识别系统就会立即确认出 勃列日涅夫的身份,他的谈话内容就会立即被国家 安全局工作人员记录下来。五角大楼一位情报官曾 表示:“这套系统甚至能够分辨出是车内的勃列日涅 夫还是其他人打的嗝儿。最近美国前情报官詹姆士・ 巴姆福德在其新著《秘密》一书中透露的一些内幕消 息也证实了这套声音识别系统的存在。 4说话人识别技术的展望 说话人识别技术取得了许多重大突破。相关商 业产品也层出不穷,给社会带来了较大的经济效益, 同时在军事领域中也起到了不可低估的(下转第29页) 一25— 维普资讯 http://www.cqvip.com 非常高,但有一个指标值非常低,因此通过变权模糊 果影响如表6所示。 综合评判,C的参试能力明显降低并且c的等级也 表6两次变权情况的比较 下降,说明惩罚的幅度大于激励的幅度。 数据调整前 数据调整后 下面考查常权权重对变权的影响。将表1中的 评估结果 A B C A B C 数据做简单调整:A中将防护能力指标值与发射能 参试能力变化幅度 31% 4% 14% 47% 3% 3O% 力指标值交换,B中将发射能力指标值与数据处理 等级变化 3-一4 1— 1 2— 3 3— 5 1—1 3— 4 能力指标值交换,c中将数据处理能力指标值与发 注:参试能力变化幅度=I(变权模糊综合评判 射能力指标值交换,其它数据保持不变,调整的结果 参试能力一常权模糊综合评判参试能力)I/常权模 是给常权较大的指标赋予较小的值。将调整后的数 糊综合评判参试能力。 据重新计算,其局部变权结果如表4所示,其参试能 综合以上的分析可知,变权模糊综合评判更能 力及等级如表5所示。 反映雷达系统效能的实际,本文提出的雷达系统效 表4雷达系统效能评估指标变权值2 能局部变权函数(式(4))能够满足雷达系统效能对 局部变权s ( ) 变权 ( ) 评估指标 变权的要求,评估的结果合理、可信。 A B C A B C 4 结束语 发射能力 1.00 O.26 1.00 0.75 O.23 O.56 本文运用模糊数学的理论,建立了某大型雷达 测距能力 O.11 O.18 O.18 O.o6 O.11 0.07 系统效能评估的数学模型,从应用示例中的结果分 抗干扰能力 O.16 O.16 O.80 0.70 O.09 O.28 析可以看出,该模型比较符合实际。 防护能力 O.O8 O.O8 O.08 O.02 O.02 O.O1 对雷达的效能评估是一项复杂的工作,涉及因素 伺服能力 0.14 0.14 O.14 O.o6 0.07 0.04 众多,且现代雷达的功能越来越强,结构越来越复杂, 支持能力 O.O8 O.8O O.O8 O.o2 O.22 O.O1 各指标之间耦合程度越来越大,因此,雷达系统的指 数据处理能力 O.1O O.8O O.1O O.o3 O.27 O.02 标体系的建立、其效能评定结构体系如何确定、综合 表5常权模糊综合评估与变权模糊综合评估结果比较2 模型的选择与设计等问题,还需要做进一步的研究。 常权模糊综合评判 变权模糊综合评判 评估结果 参考文献: A B C A B C [1]汪培庄.模糊集与随机集落影[M].北京:北京师范大学出版 参试能力 O.65 O.92 O.72 O.34 O.95 O 5O 社,1985. 等级 3(中) 1(优) 3(中) 5(差) 1(优) 4(一般) [2]Hong—Xing Li,Ling—Xia Li,Jia—Yin Wang,et a1.Fuzzy Decision Ma- king Based on Variable Weights[J].Mathematical and Computer Mode— 结果分析: lling.2004:163—179. 从表5可以看出,常权对变权的影响是明显的。 [3]李洪兴.因素空间理论与知识表示的数学框架(ⅥII)——变权 综合原理[J].模糊系统与数学,1995,9(3):1—9. A中权重最大的指标发射能力的值很低,从而造成 [4] 李洪兴.因素空间理论与知识表示的数学框架(1x)——均衡函 A的整体参试能力急剧下降,从而实现了常权大的 数的构造和Weber-Fechner特性[J].模糊系统与数学,1996,10 指标惩罚的幅度也加大的原则。c的情况与A类 (3):12—19. [5]王晓玲.素质教育评价中的变权综合方法[J].系统工程理论与 似。B中将权重很小的指标数据处理能力赋予最大 实践,2OOO. 的值1,虽然也实现了激励,但激励的幅度比表4要 [6]穆富岭,武昌,吴德伟.维修保障系统效能评估中的变权综合 小,从而也实现了常权小的指标激励也应该当小的 法初探[J].系统工程与电子技术,2003,25(6). [7]张光义.雷达系统[M].北京:国防工业出版社,1994:1—29. 原则。数据调整前与调整后的变权对综合评判的结 责任编辑:么丽苹 (上接第25页)作用。随着世界多极化和经济全球化的 社,1995. 不断加剧和计算机速度的迅速增加,层出不穷的新 [3]臧晓昱.基于改进的商斯混合模型说话人识别方法的研究 算法,面对世界新军事变革的不断挑战,说话人识别 [D].两安:武警工程学院,2006. f4]张军英.说话人识别的现代方法与技术[M].西安:西北大学出 技术会有更加广阔的发展前景。 版社,1994. 参考文献i [5]李苏鸣.语音识别技术及其军事直用[EB/OL].www.http://211. f1]赵力.语音信号处理[M].北京:机械1:业出版社,2003. 166.76.35. [2 J畅彳J_俊,迟惠生.讲音信号数宁处理[M1.北京:电子工 jk出版 责任编辑:么丽苹 

因篇幅问题不能全部显示,请点此查看更多更全内容