基于Map-Reduce构建高效文本聚类系统-南通市图书馆

文献详情 >基于Map-Reduce构建高效文本聚类系统收藏

基于Map-Reduce构建高效文本聚类系统

作者：曾静静

作者单位：上海交通大学

学位级别：硕士

导师姓名：李翔;林祥

授予年度：2011年

学科分类：081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术（可授工学、理学学位）]

主题：文本聚类 Map-Reduce 分布式计算中文分词 K-means算法

摘要：根据《2009年中国互联网舆情分析报告》,在2009年77件影响力较大的社会热点事件中,有23件是通过互联网爆料而引起社会广泛关注的。其中邓玉娇案、上海交通管理部门“钓鱼执法、杭州市飙车案等事件都在社会上造成了极其恶劣的影响。如果互联网缺乏监管,必然会引起反动和黄色信息泛滥,不良的舆论导向混淆视听,从而使得政府丧失公信力,进而威胁到社会的和谐与稳定。而对互联网热点问题进行监控,可以使国家职能机关进行有效的响应,疏导社会舆论压力,进而提升政府公信力,真正使政府做到取信于民,因此有着极为重要的社会价值和现实意义。在目前应用于互联网舆论情况监控的各种技术当中,文本聚类作为面对海量信息实现知识发现和热点发现的基本方法,无疑占据着非常重要的地位。在当前互联网环境下,数据量之大是令人匪夷所思的。相关报告显示,早在2008年,Google每天需要处理的数据量就达到了20PB,并呈现出快速递增的趋势。面对如此海量的数据,除了提高文本聚类算法精确度和效率之外,设计高效且具有良好可扩展性的分布式处理系统就显得尤为重要。文章提出了把Map-Reduce这一强大的分布式计算框架应用到文本聚类系统中去,并使用Map-Reduce的开源实现—Hadoop搭建了一个分布式文本聚类系统,最后通过具体试验对该系统进行了性能和聚类准确度上的调优,并验证了该系统在可扩展性上比一般文本聚类系统所拥有的巨大优势。相关的工作为高效文本聚类系统的构建提供了一种新的思路。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于Map-Reduce构建高效文本聚类系统

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

基于Map-Reduce构建高效文本聚类系统

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：