基于社交网络的热点发现和关联分析
作者单位:武汉理工大学
学位级别:硕士
导师姓名:张浩
授予年度:2015年
学科分类:0303[法学-社会学] 12[管理学] 1204[管理学-公共管理] 03[法学] 030301[法学-社会学]
摘 要:近年来,移动互联网技术的飞速发展带动了互联网的第二次飞跃。快速增加的数据总量也加速了大数据时代的来临,对数据价值的挖掘受到人们前所未有的重视。社交网络这一传统而又不断变化的特殊网络应用,更是将数据时代的魅力展现的淋漓尽致。移动通信技术发展到4G时代,社交网络更是渗透到普通人生活的方方面面。这些体量巨大、形式丰富的数据中隐藏着巨大的商业和研究价值等待着人们去发掘,其成果可以成为互联网产业前进的巨大推动力。本文主要通过分析新时代社交网络数据的特征,总结现有的数据分析和处理方法,对基于社交网络的热点信息发现和关联分析进行研究。本文首先介绍了社交网络的基本概况,分析了社交网络的数据特征以及对其进行数据分析的重点和难点。总结了社交网络数据分析的基本流程,并介绍了本文采用的热点发现和关联分析的流程及方法。在具体的技术方法研究上,主要分为分词和排名两个环节。分词技术上,首先总结和分析了常用的中文分词和新词识别方法,在此基础上结合社交网络数据的特点改进了新词识别模型。本文采用n元递增的方式提取候选字符串,再经过词频、互信息和信息熵三个过滤环节,筛选出新词。最后使用ICTCLAS分词工具结合新词识别的结果,对语料进行分词。在排名模型的研究上,首先总结和分析了常用的基于用户投票的排名模型,结合社交网络热点发现的要求,融合了时间滑落模型和牛顿冷却模型的优点,提出了新的排名计算数学模型。最后将提取出的热点信息使用Apriori模型进行关联规则分析,研究它们之间的相关关系,并对成果应用进行了部分探究。在模型效果的实践上,本文以新浪微博的平台为基础对以上模型进行了实证分析。最后,本文对社交网络热点发现和关联分析的研究做了总结,分析了选择的方法和模型存在的优缺点,并对进一步的研究和未来发展进行了展望。