基于TextRank-LP的突发事件中网络舆情关键词提取与演化规律研究
作者单位:湖州师范学院
学位级别:硕士
导师姓名:史伟
授予年度:2022年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:网络舆情 关键词提取 TextRank G1赋权法 风险的社会放大模型
摘 要:随着互联网的快速发展,信息超负荷现象日益严重,尤其在突发事件方面所引发的网络舆情更是影响着社会健康发展,政府、媒体发布的相关报道无形中牵动着网民的情感走向,因此,如何在海量的评论报道中高质量获取政府、媒体、公众三方的情感关键词和舆情演变规律,成为了目前研究的方向,其中基于文本评论的关键词提取算法改进更是研究热点。本文以“贵州公交车坠湖事件为研究案例,基于TextRank算法对文本评论的关键词提取做了以下两个方向的改进:(1)改进TextRank算法对突发事件中文本评论的关键词提取打破以往仅将TF-IDF和TextRank相结合的改进模式,根据突发事件的特殊性,构建G1赋权法的数学模型,在TF-IDF算法的基础上增加词性和词语位置两个属性,重新计算TF-IDF权值获取不同类型词语的综合权重,将综合权重赋予到TextRank算法中,得到TextRank-LP的关键词提取算法,通过P、R、F1值验证该方法与原TextRank算法和TF-IDF算法相比在关键词提取上有所提高。(2)基于多维属性的突发事件文本评论演化分析将突发事件划分为不同空间和时间,利用改进的TextRank-LP关键词提取算法,分别从政府、媒体、公众三方及突发事件的前后期获取关键词,分析不同维度下突发事件网络舆情的关注度变化。基于风险的社会放大模型,将“贵州公交车事件的发展细分为四个阶段,分别提取关键词云和正负面指数,并基于百度情感分析API,对评论文本在时间序列下进行情感倾向性分析,研究网络舆情的内容特征演化和情感时序变化。研究结果发现,本文所改进的关键词提取算法在获取突发事件评论文本的关键词方面有显著效果,从不同阶段获取的关键词中可以发现政府、媒体、公众三方对突发事件的关注点不同,且随着案件发展,关注的方向也会有跳跃式转变,这不仅说明该算法在突发事件网络舆情分析中有良好的适用性,同时在空间和时间的基础上深入挖掘突发事件中网络舆情的发展趋势,为相关部门提供科学可靠的理论依据。