基于DOM的Web信息抽取
DOM based Web information extraction作者机构:河北工程学院河北邯郸056000 河北大学数学与计算机学院河北保定071002
出 版 物:《河北农业大学学报》 (Journal of Hebei Agricultural University)
年 卷 期:2005年第28卷第3期
页 面:90-93页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:为解决因Web信息量巨大且具有动态性、不规则性,Web信息查询和Web信息集成存在很大困难,研究了对HTML格式的Web文档的信息抽取,提出了一种基于DOM的Web信息抽取方法。该方法通过附加语义、样本学习生成基于DOM路径的抽取规则,利用遍历DOM树实现信息抽取。本方法可用于Web查询,也可用于信息集成系统中包装器的构造。