基于Spark的社区发现和关键人物挖掘算法的研究与应用-南通市图书馆

文献详情 >基于Spark的社区发现和关键人物挖掘算法的研究与应用收藏

基于Spark的社区发现和关键人物挖掘算法的研究与应用

作者：薛龙龙

作者单位：北方工业大学

学位级别：硕士

导师姓名：胡健;唐菁

授予年度：2018年

学科分类：12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]

主题：社交网络社区发现 Louvain 关键人物 PageRank Spark

摘要：随着互联网(Internet)的持续发展、大数据政策环境和技术手段的不断完善,各类社交平台如微博、微信、知乎等顺势快速发展,形成了庞大的社交网络。通过社交平台与朋友交流、分享自已的知识和见解、获取知识等已经融入人们的日常生活。社交数据也因此呈爆炸式增长。互联网已进入如何进行大数据存储、大数据处理分析、大数据并行计算、大数据价值挖掘及应用的时代。在社交网络中,如果把人当作图中的一个节点,人与人之间的链接关系当作图中的边,则社交网络中会存在大量的子图,这些子图即社区结构。同一个社区结构内部的人具备相似的属性,如共同的兴趣爱好,这些人之间存在紧密的联系。通过对社交网络中社区结构的深入研究,我们可以挖掘出社区中潜藏的有价值的信息并进行相应的预测行为。社交网络中具有影响力的热点人物称之为关键人物。实时挖掘社交网络中的关键人物,可以知晓当下的社会热点、网站流量的并发入口等信息。大数据时代给社区结构及关键人物挖掘带来了挑战。由于互联网、应用程序和通信技术的快速发展,产生了大量的各种来源的非结构化的数据。大量的数据在存储和即时处理方面面临着诸多挑战。传统的应用于单机的社区发现和关键人物算法已经不能满足大数据时代的要求。基于上述问题背景,本文对Spark大规模数据并行处理框架,PageRank算法的Spark并行化、Louvain算法的Spark并行化、单机环境下的PageRank算法、单机环境下的Louvain算法及结果可视化等方面进行了一系列的研究。本文的主要研究内容和贡献如下:(1)社交网络中用户影响力和边权模型研究。提出一种基于用户特征和链接关系的用户影响力和边权计算模型,从而补充了关键人物挖掘算法并为基于有权图的Louvain社区发现研究奠定了基础。(2)Spark大数据并行计算框架研究。本部分主要开展三个方面的工作。1)完成Hadoop、Spark与Yarn的大数据计算环境的建设和配置参数优化;2)完成待研究数据的加载和预处理;3)深入研究了MapReduce、Spark RDD原理、GraphX原理及核心算子、Scala和Python基于Spark的并行化编程,为后续算法并行化研究打下基础。(3)PageRank算法的并行化的研究。本部分主要开展两个方面的工作。1)提出“共链边的思想,实现单机环境下的PageRank算法及其优化;2)基于Spark平台实现PageRank算法的并行化。(4)Louvain算法的并行化的研究。本部分主要开展三个方面的工作。1)实现单机环境下的Louvain算法及其优化;2)实现基于Spark的Louvain算法的并行化;3)在使用Louvain算法进行社区发现时,多数研究者使用1作为边的权重而未考虑边的实际权重和有向边对社区发现结果的影响。关于此问题,在上述边权计算模型的基础上,本文研究了有权图对Louvain社区发现的结果的影响。(5)社区发现和关键人物的挖掘结果的可视化研究与分析。本部分主要通过Gephi和D3等工具对挖掘结果进行了可视化研究与分析。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于Spark的社区发现和关键人物挖掘算法的研究与应用

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于Spark的社区发现和关键人物挖掘算法的研究与应用

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：