咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于外部资源的WEB数据抽取 收藏
基于外部资源的WEB数据抽取

基于外部资源的WEB数据抽取

作     者:杜鹃 

作者单位:华东师范大学 

学位级别:硕士

导师姓名:钱卫宁

授予年度:2012年

学科分类:08[工学] 0804[工学-仪器科学与技术] 080402[工学-测试计量技术及仪器] 

主      题:语义实体 外部资源 用户产生数据 Web数据 信息抽取 

摘      要:随着Web2.0的发展,互联网上越来越多的应用包含用户产生的数据,例如微博,在线论坛,视频网站等;这些用户产生的数据被称之为UGC(即User-Generated Content),这些数据不同于传统的Web数据,它们是由用户自由提交的,能够直接的体现用户讨论的事件话题。基于UGC进行语义提取能够更准确的把握用户正在讨论的话题以及对话题的态度,对舆情分析,热门事件追踪具有重大作用。然而,由于UGC由用户群直接发布,它的质量是低的,因此,基于UGC数据集抽取出来的语义实体质量不高。本文提出一种算法使用外部资源,基于UGC,对低质量的语义实体进行优化扩展。首先使用传统的信息抽取方法如单遍扫描,SVM等进行分词及聚类处理,在此基础之上,再使用信息量大且数据格式规范的外部资源如Wikipedia, Amazon等进行优化扩展,从而得到我们所期望的高质量的语义实体。本文的贡献主要为:1.提出了一种方法,使用外部资源对低质量的UGC进行高质量的语义实体抽取,这些高质量的语义实体对舆情跟踪,用户行为分析等研究具有重大贡献;2.研究和分析如何更高效的使用外部资源,给出性能分析,如在线模式和离线模式;3.抽取出的高质量语义实体可以作为训练数据集,训练模型,减少人工标注成本;4.使用两个真实的数据集篱笆论坛及新浪微博数据进行试验,给出实验结果。 本文旨在提出一种方法,解决如何从低质量的UGC数据集中抽取出高质量的语义实体,从实验结果来看,本方法是切实可行的。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分