您的当前位置:首页基于语料库的机器翻译的问题与对策

基于语料库的机器翻译的问题与对策

2022-12-07 来源:小侦探旅游网
第4卷第1期 西安工业大学学报(人文社会科学版) Vo1.4 No.1 2010年O6月‘ Journal of Xi’an Technological University(Humanities&Social Sciences) Ju几2010 【语富学】 基于语料库的机器翻译的问题与对策 李丹,许霄羽 (西北工业大学人文与经法学院,西安710072) 摘要:现有的机器翻译系统包括基于规则和基于语料库的机器翻译都存在一个共同的问题: 即不能准确理解和翻译莱一个具有多重语义的词、短语以及句子在特定语境下的语用含义。 混合式机器翻译方法能够把基于规则的,基于统计的和基于实例的方法结合起来,可以根据原 文的语义特点和句法结构特点随机地在这三种方法中做出选择,控制翻译过程的每一步骤,从 而达准确理解原文的语用含义,得到最恰当的翻译结果。 关键词:基于规则的机器翻译系统;基于语料库的机器翻译系统;混合机器翻译系统 中图号:H059 文献标志码:A 文章编号:9451(2010)01—061—03 The Problems and Countermeasures of Corpus—Based Machine Translation Lt Dan,XU Xiao—yu (Department of Humanities,Economics and Law,Northwestern Polytechnical University,Xi’an 710072,China) Abstract:In all the machine translation systems available,there iS a common problem that the pragmatic meanings of words,phrases or sentences with multi—meanings can not be precisely understood and translated in a certain context.The hybrid machine translation system integrates the rule—based,the statistics—based and the example~based approaches.It can make better choices from the three approaches according to the semantic and syntactic features of the original articles with each step of the translation controlled.Thus this system can precisely understand the pragmatic meanings of the original articles with the most appropriate translation obtained. Key Words:rule—based MT system;corpus—based MT system;hybrid MT system 机器翻译(machine translation)是使用计算机 术Ⅲ,其原理是使用人工智能来实现对源语言的复 把一种语言(源语言,source language)翻译成另 杂分析,并构建尽可能完善的翻译。目前正在使用 外一种语言(目标语言,target language)的一种技 的方法有基于规则的机器翻译和基于语料库的数 收稿日期:2010—03—25 基金资助:2008年度“西北工业大学人文社科与管理振兴基金”. 作者简介:李丹(1978一),女,西北工业大学讲师,主要研究方向为语言学及翻译理论 62 西安工业大学学报 第4卷 据驱动型机器翻译。基于规则的机器翻译是从五 十年代开始发展起来的,目前大多数的企业和商业 机器翻译属于此类型,实现方式如下: 源语言和目标语之间不全是一对一的对应关系,而 且翻译结果和其源语言的词语顺序有时也是不同 的。总之,在这一翻译模式中仅用到语言学及上下 分析源语言句段。系统首先查看辞典并对源 语言句型进行句法分析,即将句子分解为几个部 分,如主语、谓语或宾语等。它采取分解的方式而 文信息,而极少用到语义信息[引。 二、基于翻译实例的机器 不是根据词汇直接转换,以保证句子的前后关系, 并符合翻译目标语言的语法规则。 从映射语法结构到目标语言语法并产生目标 语言句子。根据转换规则重新排列词语,或调整句 子结构使之符合翻译目标语言的语法规则,使其最 终翻译结果符合目标用户的使用习惯。如果规则 尚未建立,句子模式就无法获得正确分析。 基于语料库的机器翻译可通过两种不同的方 式来实现,即统计机器翻译(SMT)或基于翻译实 例的机器翻译(EBMT)。这两种方法都是使用语 料库作为翻译知识的来源,基于系统已有的翻译样 例,分析源句子和目标句子对,计算每个源句子片 段与目标句子片段的匹配度,查找出与源句子词汇 和表达最匹配的目标句子片段。由于句子片段可 以是从单个词语到整个句段的任何部分,系统相应 地自动建立辞典和翻译。基于语料库的机器翻译 系统的出现,使机器翻译不需要经过句型分析和转 换规则处理,就能直接获得翻译结果。 一、统计机器翻译方法的 特点与问题 在基于统计的机器翻译方法中,知识的表示是 统计数据,而不是语料库本身,翻译知识的获取是 在翻译之前完成,翻译的过程中不再使用语料库。 这一方法主要涉及一种可能性推论及如何将 之前的翻译知识与新的源语言结合起来,推测出新 的翻译结果,非常适用于一些专用的学科领域。其 最主要的假设是,同一源语言会有很多种不同的翻 译结果,而每一种翻译结果都有可能是正确的,这 种可能性可以通过计算方法获得。在大多数基于 统计的机器翻译系统中,翻译模型的词汇表是以单 词个体体现的,即一个源语言单词仅对应一个目标 语单词。所以词对词的方法是选择目标语块的基 本方法,然后再将这些目标语块组合成句子;然而 翻译方法的特点与问题 在基于实例的机器翻译方法中,双语语料库本 身就是翻译知识的一种表现形式(不一定是惟一 的),翻译知识的获取在翻译之前没有全部完成,在 翻译的过程中还要查询并利用语料库。在基于实 例的机器翻译系统中,系统的主要知识源是双语对 照的翻译实例库,实例库主要有两个字段,一个字 段保存源语言句子,另一个保存与之对应的译文, 每输入一个源语言的句子时,系统把这个句子同实 例库中的源语言句子段进行比较,找出与这个句子 最为相似的句子,并模拟与这个句子相对应的译 文,最后输出译文。这一方法存在的问题:如果在 双语语料库中找不到最为相似的句子或者输入的 句子本身包含比喻或隐喻,那么输出的译文是不恰 当的。基于实例的机器翻译系统中,翻译知识以实 例和义类词典的形式来表示,易于增加或删除,系 统的维护简单易行,如果利用了较大的翻译实例库 并进行精确的对比,有可能产生高质量的译文,而 且避免了基于规则的那些传统的机器翻译方法必 须进行深层次语言学分析的难点,在翻译策略上是 很有吸引力的。 基于语料库的方法都存在着语料库本身范围 大小的问题,对于一项具体的翻译任务,所使用的 语料库或许太小,或许太大,难以达到完全匹配。 因此无论是基于统计的方法还是基于实例的方法 都不能仅仅依赖于语料库中的信息,还应该考虑到 语料库以外的词语以及结构。基于语料库的机器 翻译系统要变得更强大,必须与基于规则的机器翻 译方法相结合,以解决计算机对自然语言的分析、 转换、合并、记忆以及推理等难题。 三、混合型翻译模式 混合型翻译模式将基于规则的语法分析和基 第1期 李丹:基于语料库的机器翻译的问题与对策 于语料库的转换规则的功能集成到一起,在翻译过 程的每一个步骤中平行的使用不同的子模式,每一 种子模式对输入语言有独立的处理过程,所得到的 处理结果依据先后顺序被分类整理。通过统一所 有子模式处理过的输入和输出的数据结构,翻译结 果将很容易的在接下来的步骤中被合并。 (一)基于规则的子模块 基于规则的子模块是这一翻译模式的支柱,它 将为所有输入语提供一种预设的翻译结果。例如, 对简单句的翻译使用的是实例框架转换规则。这 一规则用词典中的动词用法实例为框架来重新整 理输入语言中主要动词以及相关句子要素。总之, 一个由主动词和其他句子成分组成的简单句可以 很好的由动词实例框架规则来描述。对于这种简 单句的翻译,基于统计的方法和基于实例的方法更 适合于建立句子要素及句子知识基础部分,而不是 直接应用与翻译过程中。 (二)基于统计的子模块 基于统计的子模块主要用于词汇的翻译:即使 用从独立的源语言和目的语两种语料库中统计出 的对应词语同时出现的频率,以词与词的对应关系 将它们结合起来,以消除互不对等的词语在译文中 出现的机率。这种方法的优点在于语料库不需要 是平行的l3]。 (三)基于实例的子模块 基于实例的子模块主要用于翻译句法一致的 结构,例如复合名词或名词短语,因为这种结构通 常缺乏对基于规则的翻译的清楚的句法特征,所以 基于实例的方法更有利于抓住结构中的语义和习 惯用法等特征。尽管基于规则的方法是整个翻译 过程的基础,但是基于实例的方法能够为词语在不 同的搭配习惯中提供更好的译文_4 j。 混合型机器翻译模式把机器翻译过程划分成 若干个结构部分的翻译,并且试图在每一个部分中 使用最恰当的翻译方法。这一模式的关键在于它 非常适合交互式翻译,同时为在翻译中结合不同的 方法提供了一个平台。在词汇翻译阶段主要使用 基于统计的方法,基于实例的方法对习惯用语的确 认使这个阶段的翻译更加完善,在接下来的结构转 换阶段,混合型机器翻译模式依据句子结构的特点 也能够运用最合适的翻译方法。这种混合型交互 式翻译不仅仅能够确认和修正已有的翻译结果,而 且可以在整个翻译过程中控制不同的翻译决策。 混合型机器翻译系统在大规模试验和真实用户端 测试中的正确翻译率大大超出以往的机器翻译系 统,如德国的Verbmobil系统,就是涉及三种语言 (德语、英语、日语)的双向语音机器翻译系统。该 系统将基于统计的翻译方法和基于实例的翻译方 法结合到一起,在大规模翻译实验中,正确翻译率 达到大约80 ,在真实用户的端对端测试中,9O 的对话任务获得成功。 四、结束语 众所周知,一些日常用语的翻译并不受制于结 构规则。其翻译不是各个词语翻译的总和,直译出 的目标语不能表达准确的含义。混合型机器翻译 模式能够使基于规则的翻译结果和基于实例的翻 译结果自由的组合:即基于规则的翻译结果可以被 嵌入句子的基于实例的框架中,反之亦然。所以从 应用的角度看,混合型翻译方法的重要性在于,它 为在基于规则的翻译基础上增加基于实例的翻译 的过程提供了系统的方法。 参考文献: [1]冯志伟.机器翻译研究[M].北京:中国对外翻译出 版公司,2005. E2]Quah C K.翻译与技术[M].上海:上海外语教育出 版社,2008. [3]Shinichi Doi,Kazunori Muraki.Translation Ambigui— ty Resolution Based on Text Corpora of Source and Target Imnguage[M].Morristown,NJ:Association fOr Computational I.inguisties. [4]Eiichiro Sumita,Hitoshi lida.Example—based Trans— fer of Japanese Adominal Particles into English[EB/ ()I ][2oio一05—31].http://ac1.1de.upen.edu/p/p91— 1024.pfd. [5]Toru Hisamitsu,Yoshihiko Nitta.Analysis of Japa— nese Compound Nouns by Direct Text Scanning. [EB/OI ][2oio一05—31].http://ac1.1dc.upen.edu/c/ c96/c96—1093.pf& 

因篇幅问题不能全部显示,请点此查看更多更全内容