基于最大频繁项集的搜索引擎查询结果聚类算法
Search Result Clustering Algorithm Based on Maximal Frequent Itemsets作者机构:哈尔滨工业大学深圳研究生院智能计算研究中心广东深圳518055
出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)
年 卷 期:2010年第24卷第2期
页 面:58-67页
核心收录:
学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:863专题目标导向类资助项目(2006AA01Z197) 国家自然科学基金资助项目(60703015)
主 题:计算机应用 中文信息处理 搜索引擎 网页聚类 频繁项集
摘 要:现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC(Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。