咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >科技情报采集系统的设计及其快速文本聚类方法研究 收藏
科技情报采集系统的设计及其快速文本聚类方法研究

科技情报采集系统的设计及其快速文本聚类方法研究

作     者:宋辰 

作者单位:北京工业大学 

学位级别:硕士

导师姓名:冀俊忠

授予年度:2014年

学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:科技情报采集 无监督系统 快速文本聚类 快速排序 

摘      要:科技情报的采集是科技情报研究工作中的重要组成部分,也是科技情报深入分析挖掘的基础。随着信息时代的飞速发展,信息呈指数倍增长,科技情报研究人员不得不在情报采集和统计分析等基础工作上消耗过多的时间和精力,这使得科技情报研究的工作效率大幅度下降,已经难以满足情报检索和分析的实际需求。为了能准确、全面、快速地获取较为专业的科技情报,有效地辅助相关部门进行科学的决策和适时的引导,有必要对科技情报的采集和数据分析处理技术进行深入的研究和探讨。为此,本文完成了如下两方面的工作: 1)本文设计并实现了一种无监督的科技情报采集系统。该系统首先利用元搜索模型和垂直搜索模型分别对网页数据和论文数据进行检索,并通过URL调度器、内存管理器、数据存储器、源码解析器、多线程控制模块对数据进行自动采集,实现了无需人工干涉、自主应对突发情况的数据采集功能;然后采用数据分析模块对论文数据进行自动地统计分析,为深层次的科技情报分析和研究提供信息支撑和引导;最后,以飞机制造领域为例对系统进行了实验测试,实验结果表明系统能够有效地对网页数据和论文数据进行采集,并能完成一些系统化的情报分析。 2)针对网页数据中数据量大、重复数据多,科技情报人员难以直接对其进行处理的困难,本文提出了一种基于快速排序的文本聚类算法,以实现对大量网页数据进行去重、压缩的目的。算法首先基于文本对象间的相似性度量将文本聚类问题转换为一个数字排序问题,并利用快速排序算法实现文本的聚类;然后采用随机化基准值和递归操作的转化策略来进一步提高执行效率,以实现近线性时间复杂度的文本聚类;最后在实数据和人工数据上对算法进行了测试,并与经典CURE、BIRCH、K-means算法进行实验对比,结果表明新算法不仅能够保证聚类精度,而且具有更快的执行效率,在处理大规模网页数据时具有明显的优势。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分