咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于归纳学习的Web半结构化信息抽取 收藏
基于归纳学习的Web半结构化信息抽取

基于归纳学习的Web半结构化信息抽取

作     者:张晨樾 

作者单位:首都师范大学 

学位级别:硕士

导师姓名:彭岩

授予年度:2009年

学科分类:08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术] 

主      题:半结构化 信息抽取 归纳学习 抽取规则 

摘      要:近几年来随着互联网的飞速发展,网络已成为最为重要的知识库。对这些知识实现高效快速地抽取并加以利用,具有良好的应用前景和应用价值。因特网页面固有的数量巨大、半结构化并且动态变化的特点,给Web信息抽取带来了复杂度高、可扩展性和适应性差等问题。然而,XML技术的出现,为解决Web信息抽取存在的问题提供了契机。 本文首先对现有的信息抽取技术和XML技术进行分析与研究,确定出当前Web信息抽取的主要难点是如何有效地确定抽取规则。针对目前存在的问题,为提高Web信息抽取的有效性和正确性,本文给出了一种基于路径归纳学习的信息抽取方案,并对其中相关的技术进行了深入地探讨和研究。 信息抽取中的关键问题是如何编写健壮、准确和通用的抽取规则。本文利用XSLT和XPATH技术在数据转换和定位方面的优势,编写健壮的抽取规则,通过样本训练,引导机器自动归纳学习,同时根据数据导向型样本中重要信息重复出现的特点发现用户感兴趣的信息块,进而实现对信息的准确定位,并且自动生成以XSLT语言表达的抽取规则,实现基于归纳学习规则的信息自动抽取。 最后,结合本人参与的实际项目,利用C++语言在Windows平台上构建了具有良好人机交互能力的信息抽取原型系统。实验结果表明,系统可以对页面上用户感兴趣区域生成抽取规则进行抽取,并且具有良好的用户体验、可扩展性和适应性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分