咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于DOM的Web信息抽取 收藏

基于DOM的Web信息抽取

DOM based Web information extraction

作     者:崔继馨 张鹏 杨文柱 CUI Ji-xin;ZHANG Peng;YANG Wen-zhu

作者机构:河北工程学院河北邯郸056000 河北大学数学与计算机学院河北保定071002 

出 版 物:《河北农业大学学报》 (Journal of Hebei Agricultural University)

年 卷 期:2005年第28卷第3期

页      面:90-93页

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主  题:DOM 包装器 抽取规则 信息抽取 

摘      要:为解决因Web信息量巨大且具有动态性、不规则性,Web信息查询和Web信息集成存在很大困难,研究了对HTML格式的Web文档的信息抽取,提出了一种基于DOM的Web信息抽取方法。该方法通过附加语义、样本学习生成基于DOM路径的抽取规则,利用遍历DOM树实现信息抽取。本方法可用于Web查询,也可用于信息集成系统中包装器的构造。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分