基于Spark平台的聚类算法的优化与实现-南通市图书馆

文献详情 >基于Spark平台的聚类算法的优化与实现收藏

基于Spark平台的聚类算法的优化与实现

作者：曹鹏

作者单位：北京交通大学

学位级别：硕士

导师姓名：卢苇

授予年度：2016年

学科分类：12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]

主题：大数据分布式计算聚类分析 Spark框架

摘要：现代信息社会中,随着数据量的增大,对大规模数据集进行聚类分析并生成有用信息的需求也在不断增加。如今对于大规模数据的聚类分析主要有以下难点：第一,聚类对机器内存容量的需求超出了单一计算机的硬件能力;第二,聚类分析时间过长,效率无法得到提高。于是,对大规模数据上聚类算法的优化,可以归结为对数据规模的优化以及对算法在分布式平台上的优化。近年来,分布式计算平台Spark得到了广泛关注, Spark可以对于大规模数据进行内存上的迭代计算,使计算变得更加迅速,有着其它分布式平台无法比拟的优势。本文主要研究了基于Spark平台上特定的聚类分析算法的优化和实现;与此同时,对于聚类数据进行一定的预处理,可以在其不改变聚类效果的前提下减少数据规模,提高运行效率。论文选取了近年来被提出且被广泛应用的聚类算法：近邻传播聚类与谱聚类作为优化对象。论文的主要工作如下：(1)针对聚类算法的数据规模问题,本文通过引入一种新的参数：阈值,对原始数据进行预处理。该方法根据聚类算法需要生成的类簇数,针对数据在空间中的密度计算出一定的阈值,在生成相似度矩阵时将低于该阈值的相似度数据删除,保留有效的相似度数据,从而优化数据结构并生成稀疏矩阵,在保证聚类效果不发生变化的同时减小数据规模。(2)对于近邻传播聚类算法,本文提出了一种基于Spark平台上的分块式的近邻传播聚类算法。通过在Spark平台使用二维索引的数据结构按照行进行分块并分配到每台机器中,在算法迭代中按照行分块计算归属度矩阵,并将生成结果按列存储;再按照列分块计算吸引度矩阵,并将生成结果按行存储,不断迭代最终生成聚类结果。从而实现算法在Spark平台上数据的并行化,减少机器之间的数据传输,提高聚类算法的效率。(3)对于谱聚类算法,本文提出了一种基于Spark 平台上并行Lanczos分解的的谱聚类算法。首先引入一种并行的Lanczos分解方法对原始拉普拉斯矩阵分解生成三元对角矩阵,降低了分解特征值计算的时间复杂度,该矩阵能够保留原矩阵的特征且很容易使用QR分解求解出其特征向量;其次引入上一步提出的分块近邻传播聚类算法替代原有的K-means算法,对降维后的中间结果进行聚类,减小中间结果的规模,从而优化生成聚类结果的时间效率。实验证明,以上对数据规模的预处理以及对两种算法的优化,在保证聚类准确性的同时,能够提高聚类的时间效率。本文的研究方法对数据聚类处理效率的提高有一定的帮助,对今后其他聚类算法的性能提升莫定了理论基础。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于Spark平台的聚类算法的优化与实现

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于Spark平台的聚类算法的优化与实现

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：