基于PATRICIA tree的汉语自动分词词典机制
PATRICIA-tree based Dictionary Mechanism for Chinese Word Segmentation作者机构:清华大学电子工程系北京100084
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2001年第15卷第3期
页 面:44-49页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:8 6 3计划!(86 3- 30 6 -ZD0 2 - 0 2 - 7)
主 题:信息检索 PATRICA tree 汉语自动分词 信息处理
摘 要:分词词典是汉语信息处理系统的一个基本组成部分 ,其查询和更新效率将直接影响汉语信息处理系统的性能。本文采用PATRICIAtree的数据结构 ,设计了一种可以对词典词条进行快速查询、更新的分词词典机制 ,并从理论上初步分析了它的性能。最后通过实验 ,在时间效率上与逐字二分的分词词典机制进行了比较。结果表明 ,基于PATRICIAtree的分词词典机制具有更高的查询速度和更新效率 ,能满足大规模、开放文本处理系统的需求。