Web信息自动抽取技术研究
作者单位:浙江大学
学位级别:硕士
导师姓名:陈纯;王灿
授予年度:2008年
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:Web信息抽取 树编辑距离 模板检测 网页聚类 数据标记
摘 要:Web已经成为一个庞大而复杂的信息仓库。如何利用程序从海量的Web中快速抽取信息从而提高人们获取信息的效率变得越来越重要。Web中一类重要的信息网页是数据提供网站的动态Web页面,如电子商务网站的商品信息网页。这类网页往往数量巨大且内容丰富,因而抽取工作非常有价值;同时这些页面中自由文本数据少,网页结构化程度高,而其中固定的文本数据很多,不同于新闻网页。本文针对这类网页的特点,设计了一个基于网页DOM模型的Web信息自动抽取系统,做到能够对网页集合自动聚类、模板生成、数据字段抽取与语义标记,从而将抽取的结构化数据用于数据查询代理等应用中。本文算法的基础是自顶向下限制的树的编辑距离算法。在这个算法上设计了改进的使用代表点的网页聚类算法;带有阈值剪枝的模板生成算法,在其中考虑了文本节点模板和前后缀文本模板,提高了抽取准确率;以及基于文本节点模板的数据字段语义标记算法,从而实现了整个Web信息自动抽取流程。 从基于一系列数据提供网站的动态Web网页的实验和与其他一些通过多个页面的比较实现信息抽取的算法的对比可以看出,本文提出的Web信息抽取技术实现了很高的抽取精度。