咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >采用URL特征的Hub网页识别方法研究 收藏

采用URL特征的Hub网页识别方法研究

A Study on Hub Page Recognition Using URL Features

作     者:张策 都云程 梁然 Zhang Ce;Du Yuncheng;Liang Ran

作者机构:北京信息科技大学TRS软件开放实验室北京100085 北京拓尔思信息技术股份有限公司北京100101 

出 版 物:《现代图书情报技术》 (New Technology of Library and Information Service)

年 卷 期:2016年第1期

页      面:24-31页

学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 

基  金:国家自然科学基金项目"网页内容真实性评价研究"(项目编号:61171159)的研究成果之一 

主  题:URL特征 Hub网页 支持向量机 

摘      要:【目的】通过构建简单数据样本,解决传统网页类型识别方法效率低的难题。【方法】采用URL特征作为识别依据,抽取URL信息构建训练集与测试集,使用支持向量机(SVM)建立机器学习模型以提高识别效率。【结果】在同样的数据集上,该方法的准确率为91.2%,优于其他识别方法。在效率性能方面,该方法提升近60%。【局限】当遇到URL特征不明显甚至完全相背的网站时,识别准确率会大幅度降低。【结论】该方法在效率方面存在很大优势,应用到采集系统中可提高采集效率。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分