基于条件随机域的Web信息抽取研究-南通市图书馆

文献详情 >基于条件随机域的Web信息抽取研究收藏

基于条件随机域的Web信息抽取研究

作者：朱道辉

作者单位：南华大学

学位级别：硕士

导师姓名：肖基毅

授予年度：2010年

学科分类：08[工学] 080402[工学-测试计量技术及仪器] 0804[工学-仪器科学与技术]

主题：Web信息抽取条件随机域长距离依赖 XML XCRF

摘要：随着互联网资源的迅速增长,仅仅依靠浏览器以及基于关键字检索查询的搜索引擎,已远不能满足互联网用户的信息需求,Web信息抽取应运而生。本文以条件随机域模型为主要研究内容,研究了结构新颖的条件随机域模型,选择了一种适合Web信息抽取的条件随机域,提出了基于该模型的Web信息抽取系统。本文的工作和特点如下: 鉴于目前国内对线性链式条件随机域这一简单模型研究和应用得比较多,但是对结构复杂,能对数据更好建模的条件随机域模型研究得很少,本文在前人的基础上研究了两类结构新颖的条件随机域模型,对这些模型的数学表达式、算法进行了系统的研究,为下一步工作打下了坚实的理论基础。 CRF模型相比HMM,可以加入远距离、重叠性等特征。虽然CRF模型在国内已得到广泛应用,但所研究的模型多是基于马尔可夫假设的线性链模型,该模型不能够表达节点间的长距离依赖关系,所以很少有对在模型中加入长距离特征的研究。本文对这个问题进行了专门研究,提出了长距离依赖条件随机域模型,并基于该模型进行了Web文本信息抽取实验,结果表明长距离特征确实对提高模型的抽取性能有很大帮助。近年来,利用统计模型进行Web信息抽取的研究越来越多,但大部分抽取系统存在共同的缺陷:一方面可扩展性较差,特征函数都内置在源代码中,对于有不同需求的抽取者来说,几乎不能定制自己的特征函数;另一方面为了获得较好的抽取性能,模型需要大量的训练页面,而标记训练页面是非常耗时耗力的。本文结合XML技术的可扩展性和方便交流性,提出了XML条件随机域模型。该模型将标签集,特征函数都存放在一个独立于源代码的XML文件中,特征函数用XPATH表达式表示,这样有不同需求的抽取者,不需对源代码进行了解,就可以很方便的编写自己的特征函数;另外提出了一种三角边特征,该特征能充分表达Web页面的层次结构特征,使模型只需少量训练页面就能达到较好的性能。最后提出了基于XCRF进行Web信息抽取的模型,实验结果表明抽取性能良好,XCRF更适合于Web信息抽取。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于条件随机域的Web信息抽取研究

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于条件随机域的Web信息抽取研究

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：