咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于非内容信息的网络关键资源有效定位 收藏

基于非内容信息的网络关键资源有效定位

Web key resource page selection based on non-content information

作     者:刘奕群 张敏 马少平 LIU Yi-qun;ZHANG Min;MA Shao-ping

作者机构:清华大学智能技术与系统国家重点实验室北京100084 

出 版 物:《智能系统学报》 (CAAI Transactions on Intelligent Systems)

年 卷 期:2007年第2卷第1期

页      面:45-52页

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家重点基础研究(973)资助项目(2004CB318108) 国家自然科学基金资助项目(60223004 60321002 60303005 60503064) 教育部科学技术研究重点资助项目(104236) 

主  题:网络信息检索 关键资源页面 主题过滤 机器学习 

摘      要:网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分