面向社交网络的文本可视化技术研究与实现
作者单位:西南交通大学
学位级别:硕士
导师姓名:李天瑞
授予年度:2017年
学科分类:081203[工学-计算机应用技术] 08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着互联网技术的发展,社交网络在人们的日常生活中扮演着越来越重要的角色。与传统网络应用如论坛、贴吧、博客等相比,社交网络中的用户数量更多,用户间交流更频繁,信息传播速度更快。社交网络数据具有用户数量庞大,信息类型丰富多样且冗杂的特点,使得人们很难直接从海量的数据中得到有价值的信息。而可视化技术能够生动直观地向用户展示信息,且其可交互的特点使得用户能够在观察可视化展示后根据自己的理解进一步地获取信息。然而目前基于社交网络数据的可视化分析工具多是面向情感分析、水军识别、传播分析、文本分类为主,缺乏为用户提供以主题为主线的社交网络数据的可视化工具,用户难以根据感兴趣的领域获得社交网络中的相关信息,以主题为线索的社交网络数据可视化成为当前研究热点之一。基于以上背景,本文对社交网络数据的文本可视化技术进行研究,并在以下几个方面展开了工作:1.深入研究了网络数据爬取技术,分析了目标社交网站的网页元素,针对数据采集过程中遇到的问题,设计网络爬取方案,采用Requests技术、Selenium-Driver技术与Python多线程技术threading相结合的方式,实现对动态网页与静态网页的高效爬取。根据数据特征设计表结构,将爬虫得到的数据实时存入MySQL数据库。2.提出了一种交互式的主题河流可视化方法。首先对主题河流进行基于离散系数的初始排序优化,提出了歧义点的概念,对容易产生歧义的点进行计算与可视化设计,并提供了交互功能,使用户能够在局部根据歧义点标识对主题河流进行重排序,达到消除歧义的效果。实验结果表明交互式的主题河流能有效展现时序文本数据,并能有效解决传统主题河流的局部展现歧义问题。3.提出了一种分组排序数据的可视化方法,实现了具有分组与组内排序特征的数据的可视化设计。其思路是采用基于扇形图的分区方法对实体的分组信息进行展示,采用分层的布局方法对实体组内信息进行展示,同时结合实体的颜色、大小、形状等设计。实验验证了该可视化方法能有效地对分组排序数据进行直观展示,而且能够实现对空间的充分利用。4.针对取得的社交网络文本数据进行分析与预处理,设计并实现了社交网络文本数据可视化工具,共包括六个功能模块:话题结构模块、主题河流模块、词云模块、用户可视化模块、问题展示模块,回答展示模块。并对各模块之间进行交互设计,实现了以主题为线索的文本可视化展现。