主题爬虫技术研究综述
Survey on research of topic crawling technique作者机构:西安邮电大学计算机学院西安710121 西安邮电大学陕西省网络数据分析与智能处理重点实验室西安710121
出 版 物:《计算机应用研究》 (Application Research of Computers)
年 卷 期:2020年第37卷第4期
页 面:961-965,972页
学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着移动互联网的普及以及网络信息指数的增长,如何有效地提取和利用这些信息面临巨大挑战。介绍了主题爬虫的工作原理、分类;回顾了近年来国内外关于主题爬虫的研究状况,分析了各种主题相似度的方法以及搜索策略,得出相比于普通的爬虫系统,基于网页内容和基于链接分析的爬虫系统的查准率、查全率都大幅提升;最后分析比较了主题网络爬虫两种动态搜索策略并指出了未来研究方向。