咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Spark动态选择缓存替换策略的DBSCAN算法优化研究 收藏
基于Spark动态选择缓存替换策略的DBSCAN算法优化研究

基于Spark动态选择缓存替换策略的DBSCAN算法优化研究

作     者:尹杰 

作者单位:武汉纺织大学 

学位级别:硕士

导师姓名:范平;史爱武

授予年度:2021年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:Spark框架 缓存替换算法 动态选择 DBSCAN聚类算法 并行化计算 

摘      要:近年来,大数据技术不断发展,Spark成为目前大数据领域较为常用的计算框架。其设计内存计算提升执行性能,但RDD缓存替换会影响任务运行效率。DBSCAN聚类算法可在有噪声点的数据集中发现任意类簇,但传统聚类存在不足且Spark Mllib没有实现并行计算。据此对Spark缓存替换与DBSCAN聚类算法并行优化展开研究。根据Spark缓存替换LRU算法存在的问题,提出动态选择RDD缓存替换算法DSR-CRA。综合七项RDD缓存影响因子,并结合改进Topsis综合评价RDD排序权重模型ITCE-RRWM,降低人为干预产生的权重波动,使排序模型符合RDD客观影响因素。算法通过设定阈值命中次数展开动态选择缓存替换,并提出预留Reserve内存空间策略,对重复使用RDD分区设置标识,目的是为提升RDD缓存命中率及任务执行效率。针对传统方式计算DBSCAN密度聚类效率较低,全局阈值造成聚类准确率较低等问题,提出Spark并行化改进聚类算法SDKB-DBSCAN。考虑Spark集群分布式特点,提出不规则动态分区策略,并行化结合核密度估计伴随均值模型自适应确定各分区阈值参数,以及不规则分区边界单元合并算法。并行化设计Spark迭代模型结合DSR-CRA缓存替换算法,目的是为提升聚类算法准确率以及运行效率。通过对比实验,动态选择RDD缓存替换算法运行效率较对比算法平均提升2.9%,实验表明DSR-CRA算法有效提升了执行效率;并行化改进DBSCAN算法相较串行聚类算法执行效率提升7.8倍,聚类准确率相较对比算法平均提升6.3%,实验表明并行化改进DBSCAN算法有效提升了执行效率以及聚类准确率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分