基于机器学习的网络舆情采集技术研究与设计
作者单位:电子科技大学
学位级别:硕士
导师姓名:张小松
授予年度:2014年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 0839[工学-网络空间安全] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:网络舆情 机器学习 文本聚类 Single-Pass
摘 要:随着互联网技术的飞速发展,网络平台的重要性愈发突出,网络中虚假、暴力、消极的网络舆情对社会稳定和国家安全的影响也越来越大。针对网络舆情进行有效采集在预防不良信息的传播,稳定社会秩序,保证公共安全方面有着重要意义。本文重点研究分析及改进了网络舆情采集系统的关键技术:文本聚类,设计并实现了一个网络舆情采集原型系统。1、本文对文本聚类中的Single-Pass算法进行了改进。作为基于机器学习的网络舆情采集技术,无监督机器学习的文本聚类算法是其核心。Single-Pass算法虽然对网络信息的话题提取有较为优异的性能,但是该聚类算法对于文本输入顺序的依赖性较强,对于相同的数据集,输入数据不同可能导致聚类结果的差异。本文设计了一种基于双阈值的Single-Pass算法,通过建立中间状态规范簇类中心向量的偏移来降低对输入顺序的依赖性强度。此次改进通过实验证明对文本聚类的性能有较大提升。2、本文改进了基于DOM树改进的正文提取方式,该方式结合中文字符和非链接文字的分布比率来优化传统的基于DOM树的正文提取方法,提升了舆情采集系统中正文提取的精确性。3、本文构建了基于机器学习的网络舆情采集系统架构,设计并实现了原型系统,并对其核心模块和系统整体进行测试。