基于规则和基于统计相结合的中英双语平行句对短语对齐方法
作者单位:北京邮电大学
学位级别:硕士
导师姓名:周延泉
授予年度:2010年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:“锚点”词对齐 短语对齐 “标记词”短语 混合短语识 最大熵排序模型
摘 要:双语短语对齐是当今双语信息检索和辅助机器翻译研究的热点和难点问题。在自然语言处理领域,“短语一词没有一个统一的定义,根据研究方法的不同常常有不同的含义。有的研究者认为“短语是短语结构语法中有一定结构和层次关系的语言单位,而有的则不要求“短语有内部结构关系,只要是连续的有一定意义的词串就是“短语,因此涵盖的范围更广。本文的“短语是属于后者,部分短语有较简单的内部结构关系(指基本名词短语,Base Noun Phrase,以下简称BaseNP),而大部分也只是连续的词串而已。 本文采取的方法是先对中英文句对进行分类,分为简单的短句和复杂的长句两类,对于简单的短句,使用本文提出的基于规则和基于统计相结合的方法进行对齐;对于较复杂的长句,先使用浅层句法分析将长句分为若干个短句,然后再使用短句的方法进行对齐。 在短语识别阶段,首先利用汉英双语的“标记词集合对汉英句子进行短语切分,得到“标记词短语。然后,用基于双语语料的方法识别出基本名词短语。最后,将“标记词短语和基本名词短语的识别结果归并起来,得到本文中所说的“混合名词短语。 在短语对齐阶段,第一步进行一对多的短语对齐。首先利用“锚点词对齐得到“锚点短语对齐;对于那些无法利用“锚点词对齐信息进行对齐的短语,则利用词对齐生成其候选对齐,并利用最大熵排序模型对这些候选对齐进行打分排序,以得分最高的作为对齐结果。第二步是在一对多短语对齐的基础上得到多对多的短语对齐。