一种基于树结构的Web数据自动抽取方法
Automatically Extracting Web Data Using Tree Structure作者机构:中国人民大学信息学院北京100872
出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)
年 卷 期:2004年第41卷第10期
页 面:1607-1613页
核心收录:
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
基 金:国家自然科学基金项目 ( 60 0 73 0 14 60 2 73 0 18) 国家"八六三"高技术研究发展计划基金项目 ( 2 0 0 2AA1160 3 0 ) 教育部科学技术重点基金项目 ( 0 3 0 44 ) 教育部优秀青年教师资助计划基金项目
摘 要:介绍了一种基于树结构的自动从HTML页面中抽取数据的方法 在HTML页面的树形结构之上 ,提出了基于语义块的HTML页面结构模型 :HTML页面中的数据值主要存在于语义块中 ,不同的HTML页面的主要区别在于语义块的区别 基于语义块的结构模型 ,自动抽取通过 4个步骤完成 :通过HTML页面比较发现语义块 ;区分语义块中数据值的角色 ;推导数据模式和推导抽取规则 在实际HTML页面上的实验已经证明 ,这种方法能够达到较高的正确率 ,同时 ,随着文档的增大 。