汉英机器翻译源语分析中词的识别
Chinese Sentence Tokenization in a Chinese English M T System作者机构:中国社会科学院语言研究所北京100010
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:1999年第13卷第5期
页 面:7-13页
核心收录:
学科分类:0502[文学-外国语言文学] 05[文学] 050211[文学-外国语言学及应用语言学]
摘 要:汉英 M T 源语分析首先遇到的问题是词的识别。汉语中的“词没有明确的定义,语素和词、词和词组、词组和句子,相互之间也没有清楚的界限。按照先分词、再句法分析的办法,会在分词时遇到构词问题和句法问题相互交错的困难。作者认为,可以把字作为源语句法分析的起始点,使词和词组的识别与句法分析同时进行。本文叙述了这种观点及其实现过程,并且以处理离合词为例,说明了识别的基本方法。