基于Hash结构词典的逆向回溯中文分词技术研究
Reverse backtracking research of Chinese segmentation based on dictionary of Hash structure作者机构:武汉工业学院计算机与信息工程系湖北武汉430023
出 版 物:《计算机工程与设计》 (Computer Engineering and Design)
年 卷 期:2010年第31卷第23期
页 面:5158-5160,F0003页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:中文分词 哈希结构 尾字词典 逆向最大匹配算法 分词歧义 逆向回溯算法
摘 要:为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标。