基于DOM的Web信息提取
DOM-based Information Extraction for the Web Sources作者机构:中国科学院软件研究所北京100080
出 版 物:《计算机学报》 (Chinese Journal of Computers)
年 卷 期:2002年第25卷第5期
页 面:526-533页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:DOM Web 信息提取 归纳学习 文档对象模型 路径表达式 XML Internet
摘 要:当前 ,Web已经成为人们获取信息的主要渠道之一 .然而 ,用于表达 Web页面信息的 HTML语言存在着与生俱来的缺点 .HTML 的“标记只是告诉浏览器软件如何显示所定义的信息 ,却不包含任何语义 .因此由HTML语言所表述的 Web页面经过浏览器分析后只适合人们浏览 ,不适合作为一种数据交换的方式由机器处理 .该文以文档对象模型 DOM为基础 ,把所要提取的信息在 DOM层次结构中的路径作为信息抽取的“坐标,并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成提取规则 ,然后根据提取规则生成 Java类 .生成的 Ja-va类可以作为 Web数据源包装器组成的重要构件 .