元搜索技术在涉藏舆情监控系统中的应用研究
作者单位:上海交通大学
学位级别:硕士
导师姓名:王赓;蔡建强
授予年度:2016年
学科分类:050301[文学-新闻学] 05[文学] 081203[工学-计算机应用技术] 08[工学] 080401[工学-精密仪器及机械] 0804[工学-仪器科学与技术] 080402[工学-测试计量技术及仪器] 0838[工学-公安技术] 0835[工学-软件工程] 0503[文学-新闻传播学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:涉藏舆情是社会管理部门了解藏区民众对社会政治态度等更为直接途径,同时也是制定舆情管控策略、引导舆情导向的重要依据。随着互联网尤其是境外网站中所包含大量的涉藏舆情信息呈几何级数子增长时,涉藏舆情信息收集、筛选的难度和复杂度也随之增加,同时涉藏舆情信息采集具有时效性和针对性的特殊要求,导致互联网涉藏舆情管控工作显得较为被动。涉藏舆情监控作为对我省藏区互联网信息导向的重要监管方式,其搜集信息的时效性和准确性成为了当前研究的热点。如何全面、高效地从这些海量信息中搜集到需要的涉藏舆情信息并加以分析和研判,已经成为了“涉藏舆情监控系统所要面临的首要问题。论文从实际工程化的角度出发,将元搜索技术应用于“涉藏舆情监控系统之中,实现对互联网中涉藏舆情信息采集的可行性。论文结合甘肃省甘南维稳工程中的“涉藏舆情监控系统,对研究的相关技术进行了概要描述,对元搜索技术和文本聚类、向量空间模型等技术进行了研究分析,设计了完整的涉藏舆情信息采集系统。同时,探讨了通过对元搜索引擎结果的聚类方法,以便为更加准确、高效地采集到符合主题的涉藏舆情信息。主要研究内容有:(1)对现有的舆情采集技术、元搜索引擎进行了全面系统的研究;(2)针对当前元搜索引擎方法在搜索结果去重时忽略了文本内容等问题,分析研究了元搜索引擎查询结果的聚类方法,提出通过对搜索页面摘要、标题的向量空间模型VSM(Vector Space Model)的表示来计算文本相似度,并采用凝聚层次聚类对网页文档进行聚类,来达到去重的目的;(3)设计并实现了一个基于B/S架构的元搜索引擎结果聚类系统涉藏舆情采集器,给出了系统模块设计原理、构架以及各模块的实际功能,并通过实测证明了系统运行的效果和有效性;实践表明该采集器具有较好的动态适应性,能够对涉藏舆情信息进行全面的采集。论文中研究的成果在实际工作中得到了初步验证,最后对课题中研究的不足和未来研究的方向进行了展望。