快速中文字符串模糊匹配算法
Fast Approximate String Matching for Chinese Text作者机构:中兴通讯股份有限公司深圳518004
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2004年第18卷第2期
页 面:58-65页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:计算机应用 中文信息处理 字符串匹配 模糊匹配 中文字符串匹配
摘 要:本文解决了中文字符串模糊匹配的两个主要问题 :空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多 ,应用位向量方法时 ,需要大量空间。对于某些内存很少的小型计算机 ,比如嵌入式系统 ,这将会是一个问题。本文改进了位向量方法 ,使其在应用于中文字符串时 ,空间需求降低到约 5 %。本文还利用汉字非常多的特点 ,提出一种新的基于过滤方法的中文字符串模糊匹配算法 ,BPM BM ,其速度比世界上最快的算法至少提高 14 %;在大部分情况下 ,是其速度的 1 5~ 2倍。