咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向行业搜索引擎的WEB文本挖掘技术研究 收藏
面向行业搜索引擎的WEB文本挖掘技术研究

面向行业搜索引擎的WEB文本挖掘技术研究

作     者:郭峰 

作者单位:兰州大学 

学位级别:硕士

导师姓名:陈晓云

授予年度:2006年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:搜索引擎数 据挖掘 WEB文本挖掘 信息抽取 文本分类 自然语义理解 

摘      要:随着网络信息技术的发展、Internet应用的逐渐普及,WWW已经成为一个巨大的信息存储、发布空间。但由于其数据的无结构化、无索引、异构性的特点,使得人们很难充分利用其丰富的信息。怎样在浩如烟海的信息中找出自己真正感兴趣的话题,就必须进行WEB文本挖掘,WEB文本挖掘成了数据挖掘的一个很有前途的研究方向。本文以甘肃省自然科学基金“面向行业主题层次聚类搜索引擎的实现的研发为背景,实现了面向人名的聚类搜索引擎,重点研究了聚类搜索引擎的WEB文本分类聚类技术。在研究过程中,本文在充分学习研究前人工作的基础上,结合IR(Internet Retrival)和信息抽取及数据挖掘的相关知识,提出了补偿式信息抽取的主题文本分类算法,实现了面向人名的聚类搜索引擎的WEB文本挖掘的过程。与Vivisimo相比,由于这是一种针对面向行业领域的应用,其分类聚类的效果非常好,实践证明这是一种行之有效的方法。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分