采用URL特征的Hub网页识别方法研究
A Study on Hub Page Recognition Using URL Features作者机构:北京信息科技大学TRS软件开放实验室北京100085 北京拓尔思信息技术股份有限公司北京100101
出 版 物:《现代图书情报技术》 (New Technology of Library and Information Service)
年 卷 期:2016年第1期
页 面:24-31页
学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术]
基 金:国家自然科学基金项目"网页内容真实性评价研究"(项目编号:61171159)的研究成果之一
摘 要:【目的】通过构建简单数据样本,解决传统网页类型识别方法效率低的难题。【方法】采用URL特征作为识别依据,抽取URL信息构建训练集与测试集,使用支持向量机(SVM)建立机器学习模型以提高识别效率。【结果】在同样的数据集上,该方法的准确率为91.2%,优于其他识别方法。在效率性能方面,该方法提升近60%。【局限】当遇到URL特征不明显甚至完全相背的网站时,识别准确率会大幅度降低。【结论】该方法在效率方面存在很大优势,应用到采集系统中可提高采集效率。