分布环境中的并行频繁模式挖掘算法
Parallel Algorithm for Mining Frequent Patterns in Distributed Environment作者机构:武汉理工大学信息工程学院武汉430070 华中科技大学计算机科学与技术学院武汉430074
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2005年第41卷第25期
页 面:1-3,22页
核心收录:
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:频繁模式的并行挖掘算法是数据挖掘中重要的研究课题。目前已经提出的并行算法大多是基于Apriori或基于FP-tree。由于两者的固有局限性,而且在计算过程中需要多次同步,因而具有较低的性能。文章提出了一种基于分布数据库的并行挖掘算法。该算法尽可能地让每个处理器独立地挖掘,每个处理器基于前缀树采用深度优先搜索的策略挖掘局部频繁模式集,并通过相关性质尽量减少候选全局频繁模式的规模,减少网络的通信量和同步次数以提高挖掘效率。