基于用户大数据的特征分析及可视化
作者单位:北京邮电大学
学位级别:硕士
导师姓名:崔鸿雁
授予年度:2018年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:从用户这个名词诞生的一刻开始到现在,围绕用户特征的研究一直是重要的课题。在工业界中,用户的具体特征分析能够对策略定制或是产品改善有着重要的指导作用。在学术界里,用户的各项数据更是各领域研究学者为了研究人类或是社会的重要材料。本文主要研究了用户通信数据,并围绕用户的轨迹特征展开。透过轨迹特征能够研究城市中拥有不同活跃度类型的人群,并利用其活跃度特征进行常驻位置挖掘。另一方面,一般利用通信数据的研究都会将每条通信记录所对应的基站位置作为用户的近似所在位置,但是通过这种方式提取出的近似轨迹往往与真实轨迹有着较大的偏差,所以同时需要一些纠偏的方法。最后,为了让轨迹的研究成果能够被更好的展现并被人们理解,可以使用各式各样的可视化方法。本文的主要工作如下:首先,利用流量详单数据中的地理信息,提取了用户的活跃度特征并进行了聚类,并对聚类结果进行了分析以了解城市中不同活跃度类别的人群。接下来提出了一套算法框架以进一步利用他们的特征寻找对应用户的常驻位置。其次,本文提出了一套基于流量详单URL数据对近似轨迹进行纠偏的算法。从数据中获取到的轨迹由于直接使用基站位置近似地作为用户位置,所以由此产生的用户近似轨迹存在有一定的误差。但利用流量详单URL字段中偶尔出现的GPS精确定位信息,对近似轨迹的纠偏就成为了可能。本文将这些GPS定位信息作为纠偏位置建立了目标函数,并进行优化目标求解以对原近似轨迹进行纠偏。最后,本文搭建了一套轨迹的可视化与分析系统。数据的可视化一直是数据科学中非常重要的领域,尤其对于轨迹数据这种有着详细的现实意义但又非常抽象的数据形式有着非常好的效果。本文基于MATLAB建立的轨迹可视化与分析系统能够根据所提供的数据播放轨迹动画并包含例如POI分析,常驻区域查找、轨迹分段等功能,为轨迹的研究起到非常好的辅助作用。本文的研究结果将对基于用户大数据,尤其是用户轨迹的特征分析做出一定贡献。不同的活跃度特征人群能够为城市规划、公司用户画像研究提供支持。近似轨迹纠偏能够在精确数据量稀缺的情况下尽可能对轨迹进行修正。而可视化系统能够更好地服务于非技术人员,或是为研究人员提供辅助功能。