基于特殊标志符的中文分词算法研究
作者单位:湖北工业大学
学位级别:硕士
导师姓名:钮焱
授予年度:2010年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:中文信息处理是一个繁琐而庞大的信息处理工程,中文分词的处理则是整个工程当中的一个基础且重要的环节。计算机对汉语的理解,首先要对句子能够进行有效而正确的识别,要正确的理解一句话,则要进行正确而恰当的分词,在词的基础上来理解语句。然而,在对比中文和英文时了解到,英文句子的组成是以词为单位,并用空格来隔开相邻的单词;而中文却是以字为单位,由字连成句子来表达一个完整的意思。计算机可以很容易地理解一个英文单词,从而相应的做出判断;而对由单个字组成的中文句子则须先通过中文分词技术,将整句划分为单个词才能理解。因此,中文分词的过程就是用一定的分词规则将整句划分为分散的字或词的过程。本文主要对中文分词技术进行了以下几个方面的研究。 首先,简要介绍了本课题的研究背景,本课题的主要研究内容和研究意义;明确研究的方向才能继续下一步的研究工作。介绍了中文分词及相关技术在国内外的发展现状,列举了一些典型的分词算法和分词系统,定义了中文分词的基本概念,为后来的深入学习研究提供前期可借鉴的经验基础。 其次,在对前人提出的研究成果基础之上进行深入分析,比较现有的分词技术和分词系统各自的优点和缺点,并指出了中文分词所面临的难点;结合对以上的分析作者提出了一种基于特殊标志符的分词方法。在对汉语词性的分析和研究基础上,根据汉字在汉语中的词性表现,通过大量的文献参照,总结并提出了汉语特殊标志符集,为本文下一步进行的分词方法的研究和实现奠定基础。 再者,对现有的分词词表结构进行分析比对,理解各种分词词典机制的优缺点,并结合中文字词的一些表象特性,作者提出了一种改进的以二字词为词根的中文词表结构,并对该词表结果做了详细的结构解释和说明,对比其在结构上的分词优势。 最后,作者将特殊标志符集与改进的新词典结构相结合,在实验室环境下对本文的分词方法进行测试,使用SOUGOU训练语料库中的实验文本分别在本课题分词系统中和其他分词系统中进行分词实验,通过人工对本课题的研究成果进行准确度和分词速度的测试上的比对。最后对本课题进行了总结,也对本课题未来的研究方向作了展望。