基于Spark字典表压缩存储的关联规则算法优化
OPTIMIZATION OF ASSOCIATION RULES ALGORITHM BASED ON SPARK DICTIONARY TABLE COMPRESSED STORAGE作者机构:广州工商学院计算机科学与工程系广东广州510850
出 版 物:《计算机应用与软件》 (Computer Applications and Software)
年 卷 期:2021年第38卷第8期
页 面:37-43页
学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:广东高校优秀青年创新人才培养计划资助项目(2018KQNCX309) 教育部2020年第一批产学合作协同育人项目(202002191035)。
摘 要:针对大数据新型处理框架Spark执行Apriori算法存在速率低、内存负荷高等不足,提出一种改进的Apriori优化算法。基于字典表压缩存储的机制,结合Spark框架中列式存储模式对多维多属性值的数据集进行压缩,通过Spark集群进行数据并行处理。实验表明,该算法比原算法执行速率提高23%以上,且在数据量越大的情况下其优势更明显。该算法具有降低内存负荷量、去候选频繁项集、提高执行速率等优势,且解决了多维多属性值数据集的分析难题,具备一定的应用价值。