在目前的 Web 信息提取技术中,很多都是基于 HTML 结构的,由于 HTML 结构的经常变化, 使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的 Web 信息提取方法,通过将网页文本按照其显示属性的不同进...
详细信息
在目前的 Web 信息提取技术中,很多都是基于 HTML 结构的,由于 HTML 结构的经常变化, 使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的 Web 信息提取方法,通过将网页文本按照其显示属性的不同进行分组,以显示属性值为基础对 Web 页面文本进行分类,获取所关注文本,从而完成对 Web 页面的信息提取。这种提取方法操作简单、易于实现,不依赖源网页的结构。
暂无评论