基于语义相似度的句法歧义结构消解
2021-12-08
来源:小侦探旅游网
维普资讯 http://www.cqvip.com 第23卷第1期 2006年2月 Journal of Shenyang I沈阳航空工业学院学报 nstitute of Aeronautical Engineering Feh.2【x)6 V01.23 No.1 文章编号:1007—1385(2006)O1—0047—04 基于语义相似度的句法歧义结构消解 周俏丽 蔡东风吕德新朱江涛吴英泽 (沈阿I航空:L业学院EI然语吉处 实验室,i工 :沈阳110034) 摘 要:以汉语句法结构分析中最普遍存在的句法结构歧义现象,即“动词短语+名词短语+的 +名词短语”(VP+NP1+的/u+NP2)为研究对象,提出了一种基于知网知识库的歧义消解 策略。据此提出利用改进的知网相似度计算的歧义消解策略。通过对从人民日报的语料中抽取 1000个“VP+NP1+的/u+NP2”的实例进行测试,实验结果正确率达到83.4%,表明这是一 种有效的识别“VP+NP1+的/u+NP2”歧义结构的方法。 关键词:知网;歧义结构;消歧;相似度计算 中囤分类号:Tl ̄91 文献标识码:A 歧义现象是指一个语言片断可以作两种或两 名词分类建立的规则进行消解的方法;最后在第 种以上的语义理解。歧义又叫做”同形”,一个着 六节给出了实验结果和总结。 眼于内容,一个着眼于形式,这是一个问题的两个 方面。歧义必须以同形作为前提,不同形就无所 2 VNN歧义结构分析 谓歧义。在进行文本的自动句法分析中,歧义的 VNN是汉语研究中最早发现的一种歧义格 自动消解是一个关键而又尚未完全解决的问题。 式…。在这个格式中,Nl可作为VP的宾语,述 因此,深入地探讨同形歧义对于自然语言计算机 宾结构“VP+NI”加上“的”之后,作名词N2的 处理具有重要的作用。 定语,整个结构是一个定中结构;N1又可与“的” 本文以人民日报1998年1月的语料为研究 结合在一起作N2的定语,“Nl+的/u+N2”这 对象从中提取带有歧义格式“V+N1+的/u+ 个名词词组再作为VP的宾语,整个结构是一个 N2”(以下简写为VNN) ,通过我们的统计,发现 述宾结构。因此,VNN会产生定中或述宾这两种 在上述语料中带有VNN歧义格式的句子已经占 结构…。当实例化为“咬死了猎人的狗”时就会 到18%。可以说,VNN这种歧义格式在汉语中是 产生上述两种结构。按照这两种结构对应的依存 普遍存在的。所以说,解决VNN这种歧义结构将 句法树结构,有下面两种结果(如图1,2)。 对汉语的句法分析起着至关重要的作用。 目前,被大多数人所熟知的汉语自动句法分 析器是中科院研发的概率型的自然语言句法分析 器 我们随机抽取113个带有“V+N1+的/Il+ N2”结构的句子,用中科院的句法分析器进行分 囤I 述宾结构的依存句法树结构 析。经过测试,句法分析正确率只达到51.3%。 所以本文对“V+Nl+的/u+N2”进行专项研究 并提出了自己的歧义消解策略。 本文在第二节对“V+Nl+的/u+N2”进行 了具体的分析;第三三节介绍了对知网和歧义结构 图2定中结构的依存句法树结构 消解的相关研究;第四节讲述了利用知网相似度 但是,VNN这个歧义格式并不是始终具有歧 进行消解的方法和具体步骤;第五 讲述了利用 义,当用具体的单词去代替歧义格式中的范畴符 号时。在所形成的具体的句子或词组中,歧义格式 收舶}]期:2005—12一U6 作者简介:川们耐(I977一),女。江宁沈…人,硕上研究 【 中原有的歧义有可能继续保持,也有可能不再继 续保持而消失得无影无踪了…。具体例子如下: 维普资讯 http://www.cqvip.com 沈阳航空工业学院学报 第22卷 撞倒弟弟的自行车告别母校的学生咬死猎 人的狗(有歧义) 撞倒路边的自行车检查大楼的电梯解释旅 行团的章程(述宾关系) 撞倒柱子的自行车学习英语的条件缝补衣 服的妈妈(定中关系) 如果说这个潜在歧义结构经过实例化后,歧 义并没有消失而是转化成了现实的真歧义结构 (如:撞倒弟弟的自行车)。那么这种现实的歧义 必须把它放到完整的句子中才能得到歧义的消 解。而在本文中对如何消解这种现实的歧义暂时 不做讨论,本文的目标是对不能转化为现实歧义 的潜在歧义进行消解。 3相关研究概述 3.1歧义结构消解 目前在自然语言的计算机处理中,“制约歧 义消解方法”是普遍采用的歧义消解方法之一。 所谓基于“制约”的歧义消解方法,就是利用句法 语义的制约条件,排除不能满足制约条件的结构, 从而达到歧义?肖解的目的。而VNN这种潜在歧 义结构要转化为现实歧义结构必须满足以下二个 语义制约条件: A.当Nl和N2在语义上同时可以作为VP 的受事时,N2可以作为VP的施事;; B.Nl和N2在语义上存在领属与被领属关 系,Nl是领属者,N2是被领属者。而Nl与N2 能否成为VP的受事问题,实质上就是动词对宾 语的语义选择限制问题。然而动词对宾语的语义 选择限制主要指动词对宾语语义类的制约约束。 跟动词语义选择限制相关的另一个侧面是研究动 词的搭配,为此我们实验室构建了动词与名词的 搭配库。在此搭配库的基础上我们利用知网的相 似度计算来证明动词对名词语义选择的限制,从 而得到歧义的消解。 3.2知网简介 知网 是一个以汉语和英语的词语所代表 的概念为描述对象,以揭示概念与概念之间以及 概念所具有的属性之间的关系为基本内容的常识 知识库。与词林等传统的语义词典不同,《知网》 2005中采用了2000多个义原,通过知识词典描 述语言KDML(Knowledge Dictionary Markup Lan— guage)来对每个概念进行描述。义原一方面作为 描述概念的最基本单位,另一方面,义原之间又存 在复杂的关系。在《知网》中,一共描述了义原之 间的8种关系:上下位关系、同义关系、反义关系、 对义关系、属性一宿主关系、部件~整体关系、材 料一成品关系、事件一角色关系。可以看出,义原 之间组成的是一个复杂的网状结构,而不是一个 单纯的树状结构。不过,义原关系中最重要的还 是的上下位关系。根据义原的上下位关系,所有 的“基本义原”组成了一个义原层次体系这个义 原层次体系是一个树状结构,这也是我们进行语 义相似度计算的基础。 4基于知网的语义相似度消歧 4.1语义相似度的计算 在本文中以动词和名词的搭配库为模板来计 算VNN结构中的“Nl,N2”与搭配库中的与“VP” 形成搭配的词之问的相似度,目的是比较“Nl, N2”中哪一个与搭配库中的词的相似度更强,从 而来消解歧义结构。关于基于知网的相似度计算 有很多种,在本文中使用的是我们实验室开发的 改进的知网2004相似度的计算,下面作以简要介 绍。 对于两个汉语词语 和 ,如果 有 个义项(概念):S S ,……,S , 有m个义项 (概念):S: ,|s22,-…一,S ,我们规定, 和 的 相似度各个概念的相似度之最大值,也就是说: Sim(W1, )=max.. Sim(S S2f) (1) 这样,我们就把两个词语之间的相似度问题 归结到了两个概念之问的相似度问题_5 J。当然, 我们这里考虑的是两个名词之间的相似度。所以 在计算两个概念之问的相似度之前先判断它的词 性。计算两个概念(s ,s )之问的相似度分为以 下几个步骤: (1)计算DEFI,DEF2的首义原之间的相似 度Sim(Dfl,Dt2)=pl; (2)计算DEFl,DEF2之间的相似度Sim (Dl,D2)=p2; (3)计算2)步骤中提取的首义原框架(框架 是对义原的定义。每一个义原都继承上位义原的 所有框架。)之间的相似度,为Sim(Sfl,Sf2)= p3; 首义原的框架:知网中每一个义原都有一框 架。如:”human1人”的框架如下: {AnimalHuman I动物:HostOf={Ability l能 力}{Name J姓名}{Wisdom j智慧},{speak j说:a一 维普资讯 http://www.cqvip.com 第1期 周俏丽等:基于语义相似度的句法歧义结构消解 49 gent={一}},{thinkl思考:agent={一}}} (4)判断两个概念的首节点是否在具有相同 义原树上,如果不是,记04=0;根据概念1的相 关词汇集合A,概念2的相关词汇集合B,其中相 关概念场的每一个词汇都可以代表一个相关的特 征词向量,然后计算A和B的向量空问夹角,采 用夹角余弦计算相似度值Sier(Drl,Dr2)=04。 (5)两个概念之间的相似度为: Sier(S1,S2)=pl半Bl+p2半132+p3木133+ 04 B4……(2) 其中B ,B ,B,,B 表示各个不同组成部分 所得的相似度的权重,它们的关系为13 +p +13, +134=1。在本文中13l=0.1,132=0.5,133=0.1, 13 =0.3。 4.2排歧算法的实例说明 例如:我们要判断”陷入/v困境/n的/u公 司/n”是属于下面哪一种结构: [陷入/v[困境/n的/u公司/n]]述宾结 构; [陷入/v困境/n的/u[公司/n]]定中结 构; (1)在动词和名词(VN)搭配库中找到与”陷 入”形成的所有的搭配,见表l: 表l在搭配库中与“陷入”形成的所有搭配 (2)计算“困境”和“公司”与m个搭配之间 的相似度并得出最大值,见表2。 表2相似度的计算结果 (3)进行最大相似度的比较,最后确定“VP +N1+的+N2”的结构。 (w为搭配库中与VP形成搭配的词的集 合。) maxSim(困境,W)=1.000000; maxSim(公司,W)=0.02857l; 通过上面的值可以得出,”困境”比”公司”更 适合与”陷入”形成搭配。所以”陷入/v困境/n 的/u公司/n”属于定中结构[陷入/v困境/n的/ U[公司/n]]。 5基于名词分类的规则消歧 我们根据相似度的比较来确定N1为VP的 受事还是N2为VP的受事。但是,如果在max— Sier(N1,W)=maxSim(N2,W)的时候,我们根据 Nl与N2之间在语义上存在的领属和被领属关 系并利用名词分类来制定规则进行消歧。 5.1按名词的语义类把名词分类: (1)一般名词:人民/机器/老虎 (2)具有人的特征名词:残疾人,坏人,博士 生,职工,孩子,救世者等。 5.2根据名词分类的消歧规则 当具有人的特征的名词出现在N1的位置时 直接确定为述宾结构;如果出现在N2位置时直 接确定为定中结构。如果同时出现在Nl和N2确 定为述宾结构。实例如下: 敲响/v钟声/n的/u人/n(定中结构); 研究/v自然科学/l的/u博士生/n(定中结 构); 还有/v溥杰/nr的/u字/n(述宾结构); 还有/v英烈/n的/u后裔/n(述宾结构)。 6实验结果和分析 6.1实验流程 本文以我们实验室所构建的动词和名词搭配 库为模板,运用改进的知网相似度计算和知网的 义原分类规则对VNN结构进行消歧。实验流程 如图3。其中原始语料为经过分词和词性标注的 语料。 6.2实验结果 从2001年人民日报的语料中抽取1000个 VNN测试正确率为83.4%。测试结果如表5。 表5使用方法所占比例和各方法判断的正确率 维普资讯 http://www.cqvip.com 沈阳航空工业学院学报 第22卷 参考文献: [1]冯志伟.论歧义结构的潜在性[J].中文信息学报。1995(4) [2]吴云芳,段慧明,俞士泣.动词对宾语的语义选择限制[J].语 言文字应用.2005(2) 【3]朱德熙.汉语句法中的歧义现象.现代议语语法研究[M],北 京:商务印书馆,1980 [4]孙茂松,黄昌宁.汉语中的兼类词、同形词类组及其处理策略 [J],中文信息学报.1989(4) [5]刘群,李索建.基于《知网》的词汇语义相似度计算.第三届汉 圈3买验流程图 语词汇语义学研讨会,中国台北,2002 [6]董振东。董强.知网[EB/OL].http:∥www.keenage.coal,1999 7结论 —.09—23/2004—・03—・06 [7]詹卫东,面向信息处理的现代汉语短语结构规则研究[M],北 虽然歧义在自然语言中普遍存在,而真正影 京:清华大学出版社,2000 响到人们交流的情况却很少。这是因为在交际过 [8]Chao—Huang Chang,Gilbert K.Krule ̄,Resolution of Ambigui・ 程中,人们总是可以根据一定的知识背景,文化常 ty in Chinese and Its Application to Machine Transaltion。Ma・ 识,结合特定的上下文的某些语法,语义特点找出 chine Transahion,6,1991/1992 几个意义当中最可能的…个。所以说如果歧义结 [9]Alshawi,Hiyan and David Ca ̄er.1994.Training and Scaling Preference Functions for Disambiguation.Computational Liguis— 构放到特定的上下文当中那么产生歧义的概率是 tics.1994。20(4) 非常小的。但是本文并没有用到上下文的语法和 【10]Hindlc,Donal Rooth,Mats.1993.Structural Ambiguity and Lex・ 语义特点来解决它。所以这会对本文消歧方法的 ical l ̄clations,Computational Liguistics.1993。19(1) 正确率有所影响,但这也是我们下一阶段的目标。 Ambiguous structure disambiguation based on semantic similarity computation ZHOU Qiao—li CAI Dong—feng LV De—xin ZHU Jiang—tao WU Ying—ze (Nature Language Processing Laboratory,Shenyang Institute of Aeronautical Engineering,Liaoning Shenyang 110034) Abstract:In this paper we propose a novel method based the How Net,which is a Chinese—English bilingual knowledge—based dictionary,to disambiugate the ambiguous syntactic structure.The method USeS the”verb phrase+noun phrase+de/auxiliary word+noun phrase”(VP+NP1+的/u+NP2)as sample to describe our approach for structure disambiguation.Our method is using HowNet as main knowledge resource.The strategy we presented is the modified similarity computation fi'om the HowNet for structure disambiguation.The ease study used in the experiment consists of 1 000 examples which were extracted from the People Daily.The experiment result shows that the disambiguation accuracy reached 83.7%.which demonstrate that the method which we used is effective for sturcture disambiguation. Keywords:How Net,ambiguous structure,disambiguation,similarity computation