咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >针对爬虫的域名链接过滤算法 收藏

针对爬虫的域名链接过滤算法

Link Filtering Algorithm of Domain Name in View of the Crawler

作     者:文阳 陈文宇 袁野 朱建 Wen Yang;Chen Wenyu;Yuan Ye;Zhu Jian

作者机构:电子科技大学图书馆 电子科技大学计算机学院 

出 版 物:《图书情报工作》 (Library and Information Service)

年 卷 期:2014年第58卷第20期

页      面:125-130页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主  题:网络爬虫 链接过滤 域名过滤 主题过滤 

摘      要:认为传统的基于主题的链接过滤算法虽然在某一领域的主题爬虫中使用广泛,但该方法只关心抓取的网页与主题之间的相关性,忽略了网站自身链接的结构特点。提出基于域名的链接过滤算法,该方法对基于网页链接中域名的结构特点进行比较,同时以基于主题的链接过滤算法作为辅助,判断出无用的垃圾链接。与单一基于主题的链接过滤算法相比较,基于域名的链接过滤算法的判断方式更为全面,链接过滤效率更高,从而能有效地提高网络爬虫的抓取效率和情报检索的效率。最后,通过仿真实验证明该算法的有效性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分