英汉机器翻译中的歧义及消歧策略
作者单位:广西师范大学
学位级别:硕士
导师姓名:周良仁
授予年度:2002年
学科分类:0502[文学-外国语言文学] 05[文学] 050211[文学-外国语言学及应用语言学]
摘 要:在当今这个全球经济一体化、信息爆炸的时代,特别是在中国加入世贸组织后,国内外的科技文化信息的交流如汹涌的潮水势不可挡。Internet的迅速普及,使信息传播突破了国界的限制,但语言差异却成了信息交流的最大障碍。传统的人工翻译已不能满足要求,人们渴望发展自然语言信息处理技术以能快速、有效地解决海量信息的翻译问题,机器翻译就是解决这个难题的最好的办法。 机器翻译的确切定义是用计算机把一种语言全自动翻译为另一种语言。机器翻译研究的意义是不言而喻的,但又是一项艰巨的研究课题。自二十世纪四十年代美国为获取情报而首次开发出机器翻译技术以来,机器翻译已有六十余年的发展历史,其间经历了几起几落的曲折历程。人们对它的评价毁誉参有。尽管二十世纪九十年代以来,已有许多机器翻译系统进入了市场,但其翻译结果却不尽如人意。由于计算机本身固有的特点及语言学、算法的不够完善,机器翻译系统面临的主要瓶颈之一就是语言歧义消解问题。本文研究英汉机器翻译中的歧义现象,在总结前人经验和个人研究(调试北京中文信息处理开放实验室的“译路通英汉系统)的基础上,提出了一些可行的消歧策略。 机器翻译的设计一直是尽可能地模仿人的翻译原理。本文的第二部分介绍了机器翻译系统的历史、现状和原理。一个译者必须具备双语词汇,双语语法知识、客观经验知识及对上下文已合信息的判断能力。机器翻译系统则包括词典或语料库和翻译引擎两部分。翻译引擎一般又包括三大模块:词法分析、句法分析、转换生成模块。其中句法分析模块主要是基于短语结构语法和语言递归性原理,用逻辑编程语言表述成的一整套规则,经过这些句法规则判断,得出句法树。本文还分析了生成模块的生成转换过程。 从机器翻译系统的原理得知,机器翻译系统主要是以句子为单位进行语法分析和转换,所以机器翻译系统的缺点是缺乏客观经验知识,和不具备上下文信息的判断及认知学习能力。歧义现象是自然语言的显著特点,但人类可以轻而易举解决的歧义问题,计算机处理起来却很棘手。本文第三部分分类列举了各种歧义现象,歧义主要分为语义歧义、句法结构歧义两大类。语义歧义指语义确定问题,首先是英汉数词转换中的量词歧义,机译系统有时无法判断加什么相应中文量词。机译系统在词性相同的情况下,由于缺乏语义限制,而无法决定词义,这是一词多义歧义.又由于机译系统的语法规则生成性很强,在语法结构相似时,无法决定词的词性,叫兼类歧义。而且机译系统缺乏上下文信息判断能力,无法正确回指代词指代对象,是代词回指歧义。句法歧义主要是句法分析中的结构歧义。其中,除了英语长句断句歧义外,修饰成分歧义也是个很大的难题,包括系统判定定语从句、“of短语、介词短语、并列结构的修饰对象及范围。本文还讨论了以上所有歧义现象对机译系统翻译效果的影响,主要有原文无歧义,译文无歧义;原文无歧义,译文有歧义;原文有歧义,译文无歧义这三个方面。 针对这些歧义现象,论文在第四部分提出了一些可行的消歧策略。消歧目前主要有语言学消歧法和统计消歧法。传统的机器翻译系统一般采用语言学方法,本文也是从这方面着手讨论消歧问题的。语言学消歧包括语义消歧、句法消歧和语用消歧。语义消歧的主要策略是对机译系统进行语义限定,包括形态消歧和词义消歧。形态消歧是在司法分析模块中制定规则,对输入词的形态结构进行限制,初步判断词性,并把判断结果输给句法分析模块。词义消歧的方法目前有三种。一是基于语料库消歧,即运用隐马尔可夫模型及计算 机学习算法构建无歧义指导型语料库,并对语料库中的语料进行词性标注,或构建未标汪 的对齐语料库。二是采用基于知识的消歧方法,在系统词典、义类词典、词网中进行语义 限定和语义、句法标注,从而确定词义。笔者参与调试的“译路通采用的就是用基于知 识的消歧法,即在系统词典中标注近邻和词团约束关系、在引擎中定义语义及语法特性. 这种方法能把词的语义特性和语法功能结合起来,以解决一词多义、兼类和句法歧义问题. 三是基于语料和知识的混合方法.句法消歧是针对句法歧义中的定语从句和并列句歧义, 在翻译引擎中制定共性规则和个性规则.而语用消歧则是利用语用信息消除代词所指歧 义.除了诏言学消歧外还有统计消歧,它是基于海量语料库,统计出词与词之间的概率. 在以上方法都不能消除歧义的情况下,可以在保证翻译可读性的前提下,让机译系统保留 歧义进行翻译. 虽然英汉机器翻译系统中的歧义很难解决,但并不是毫无解决的办法.笔者认为,多