科技情报采集系统的设计及其快速文本聚类方法研究-南通市图书馆

文献详情 >科技情报采集系统的设计及其快速文本聚类方法研究收藏

科技情报采集系统的设计及其快速文本聚类方法研究

作者：宋辰

作者单位：北京工业大学

学位级别：硕士

导师姓名：冀俊忠

授予年度：2014年

学科分类：08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：科技情报采集无监督系统快速文本聚类快速排序

摘要：科技情报的采集是科技情报研究工作中的重要组成部分，也是科技情报深入分析挖掘的基础。随着信息时代的飞速发展，信息呈指数倍增长，科技情报研究人员不得不在情报采集和统计分析等基础工作上消耗过多的时间和精力，这使得科技情报研究的工作效率大幅度下降，已经难以满足情报检索和分析的实际需求。为了能准确、全面、快速地获取较为专业的科技情报，有效地辅助相关部门进行科学的决策和适时的引导，有必要对科技情报的采集和数据分析处理技术进行深入的研究和探讨。为此，本文完成了如下两方面的工作： 1)本文设计并实现了一种无监督的科技情报采集系统。该系统首先利用元搜索模型和垂直搜索模型分别对网页数据和论文数据进行检索，并通过URL调度器、内存管理器、数据存储器、源码解析器、多线程控制模块对数据进行自动采集，实现了无需人工干涉、自主应对突发情况的数据采集功能;然后采用数据分析模块对论文数据进行自动地统计分析，为深层次的科技情报分析和研究提供信息支撑和引导;最后，以飞机制造领域为例对系统进行了实验测试，实验结果表明系统能够有效地对网页数据和论文数据进行采集，并能完成一些系统化的情报分析。 2)针对网页数据中数据量大、重复数据多，科技情报人员难以直接对其进行处理的困难，本文提出了一种基于快速排序的文本聚类算法，以实现对大量网页数据进行去重、压缩的目的。算法首先基于文本对象间的相似性度量将文本聚类问题转换为一个数字排序问题，并利用快速排序算法实现文本的聚类;然后采用随机化基准值和递归操作的转化策略来进一步提高执行效率，以实现近线性时间复杂度的文本聚类;最后在实数据和人工数据上对算法进行了测试，并与经典CURE、BIRCH、K-means算法进行实验对比，结果表明新算法不仅能够保证聚类精度，而且具有更快的执行效率，在处理大规模网页数据时具有明显的优势。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

科技情报采集系统的设计及其快速文本聚类方法研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

科技情报采集系统的设计及其快速文本聚类方法研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：