Web结构挖掘研究
作者单位:西安电子科技大学
学位级别:硕士
导师姓名:王宇平
授予年度:2009年
学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术]
主 题:Web结构挖掘 链接分析 PageRank算法
摘 要:随着互联网的迅速发展,WWW已经成为全球最大的信息库。但是面对WWW里浩如烟海的信息,如何快速准确地找到所需信息或是提取有用知识便成为一个急需解决的问题。将传统的数据挖掘技术和Web数据的特点结合起来,进行Web挖掘成为解决这一问题的有效途径。Web挖掘主要包括内容挖掘、结构挖掘和使用挖掘三个方面,本文主要涉及Web结构挖掘。研究表明Web上的链接结构含有非常丰富和重要的信息,链接分析技术已经被成功的用于研究网络的链接结构来查找重要页面。 本文对经典的Web结构挖掘算法HITS和PageRank做了深入的学研究与探讨,对比分析了它们各自的特点。针对Google所使用的PageRank算法,在分析了该算法的形成思路、计算方法后,提出了站内链接、入站链接和出站链接等几条网站布局的优化策略。考虑到PageRank算法将页面权威值平均分配会影响到网页排序质量这一不足,提出了基于入度大小来分配权威值的改进PageRank算法(Improved PageRank,简记为:IPR),该算法认为那些入度较高的页面具有更高的价值,在分配权威值时提高了对高入度页面的分配比例。最后通过试验仿真建立了一个网络图,验证了改进算法的有效性。