咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于权值优化的网页正文内容提取算法 收藏

基于权值优化的网页正文内容提取算法

Content Extraction Algorithm of HTML Pages Based on Optimized Weight

作     者:吴麒 陈兴蜀 谭骏 Wu Qi;Chen Xing-shu;Tan Jun

作者机构:四川大学计算机学院∥网络与可信计算研究所四川成都610065 中国电子科技集团公司第二十九研究所信息综合控制国家重点实验室四川成都610065 

出 版 物:《华南理工大学学报(自然科学版)》 (Journal of South China University of Technology(Natural Science Edition))

年 卷 期:2011年第39卷第4期

页      面:32-37页

核心收录:

学科分类:0810[工学-信息与通信工程] 1202[管理学-工商管理] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081203[工学-计算机应用技术] 0805[工学-材料科学与工程(可授工学、理学学位)] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家"973"计划项目(2007CB311106) 

主  题:权值优化 正文内容提取 特征属性 统计特征 准确率 召回率 

摘      要:目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分