咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Spark的社区发现和关键人物挖掘算法的研究与应用 收藏
基于Spark的社区发现和关键人物挖掘算法的研究与应用

基于Spark的社区发现和关键人物挖掘算法的研究与应用

作     者:薛龙龙 

作者单位:北方工业大学 

学位级别:硕士

导师姓名:胡健;唐菁

授予年度:2018年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:社交网络 社区发现 Louvain 关键人物 PageRank Spark 

摘      要:随着互联网(Internet)的持续发展、大数据政策环境和技术手段的不断完善,各类社交平台如微博、微信、知乎等顺势快速发展,形成了庞大的社交网络。通过社交平台与朋友交流、分享自已的知识和见解、获取知识等已经融入人们的日常生活。社交数据也因此呈爆炸式增长。互联网已进入如何进行大数据存储、大数据处理分析、大数据并行计算、大数据价值挖掘及应用的时代。在社交网络中,如果把人当作图中的一个节点,人与人之间的链接关系当作图中的边,则社交网络中会存在大量的子图,这些子图即社区结构。同一个社区结构内部的人具备相似的属性,如共同的兴趣爱好,这些人之间存在紧密的联系。通过对社交网络中社区结构的深入研究,我们可以挖掘出社区中潜藏的有价值的信息并进行相应的预测行为。社交网络中具有影响力的热点人物称之为关键人物。实时挖掘社交网络中的关键人物,可以知晓当下的社会热点、网站流量的并发入口等信息。大数据时代给社区结构及关键人物挖掘带来了挑战。由于互联网、应用程序和通信技术的快速发展,产生了大量的各种来源的非结构化的数据。大量的数据在存储和即时处理方面面临着诸多挑战。传统的应用于单机的社区发现和关键人物算法已经不能满足大数据时代的要求。基于上述问题背景,本文对Spark大规模数据并行处理框架,PageRank算法的Spark并行化、Louvain算法的Spark并行化、单机环境下的PageRank算法、单机环境下的Louvain算法及结果可视化等方面进行了一系列的研究。本文的主要研究内容和贡献如下:(1)社交网络中用户影响力和边权模型研究。提出一种基于用户特征和链接关系的用户影响力和边权计算模型,从而补充了关键人物挖掘算法并为基于有权图的Louvain社区发现研究奠定了基础。(2)Spark大数据并行计算框架研究。本部分主要开展三个方面的工作。1)完成Hadoop、Spark与Yarn的大数据计算环境的建设和配置参数优化;2)完成待研究数据的加载和预处理;3)深入研究了MapReduce、Spark RDD原理、GraphX原理及核心算子、Scala和Python基于Spark的并行化编程,为后续算法并行化研究打下基础。(3)PageRank算法的并行化的研究。本部分主要开展两个方面的工作。1)提出“共链边的思想,实现单机环境下的PageRank算法及其优化;2)基于Spark平台实现PageRank算法的并行化。(4)Louvain算法的并行化的研究。本部分主要开展三个方面的工作。1)实现单机环境下的Louvain算法及其优化;2)实现基于Spark的Louvain算法的并行化;3)在使用Louvain算法进行社区发现时,多数研究者使用1作为边的权重而未考虑边的实际权重和有向边对社区发现结果的影响。关于此问题,在上述边权计算模型的基础上,本文研究了有权图对Louvain社区发现的结果的影响。(5)社区发现和关键人物的挖掘结果的可视化研究与分析。本部分主要通过Gephi和D3等工具对挖掘结果进行了可视化研究与分析。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分