大规模数据挖掘聚类算法的研究与实现-南通市图书馆

文献详情 >大规模数据挖掘聚类算法的研究与实现收藏

大规模数据挖掘聚类算法的研究与实现

作者：崔日新

作者单位：西安电子科技大学

学位级别：硕士

导师姓名：王保保

授予年度：2013年

学科分类：12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]

主题：数据挖掘聚类 Weka MapReduce 分布式计算

摘要：数据挖掘技术集合了人工智能、机器学习、模式识别、统计学、数据库、可视化技术等众多领域学科，从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息。数据挖掘作为引领当今世界信息技术领域的关键技术，已经引起了学术界和工业界的广泛关注与研究应用。聚类分析作为数据挖掘功能的一个重要分支，是一种非监督模式识别，至今已提出了大量的理论基础和实现算法，取得了可喜的研究成果。但是，聚类中还存在着许多广为人知的问题，随着信息量的飞涨以及数据对象的日趋复杂，聚类分析面临着更多新的内容和挑战。这就要求引入新的聚类改进方法，并提出新的理论和方法去适应新的应用。本文以硬k均值和模糊k均值为例，在深入研究传统经典聚类算法基础上，对这两种聚类分析方法进行了详细探讨与研究并提出几点改进方法。认真学习了开源数据挖掘项目Weka，在此基础上对模糊k均值算法进行了二次开发，并对算法的可靠性做了验证实验。为了适应于大数据量的协同并行数据挖掘运算，引入了MapReduce设计模式，并采用包含分布式文件系统的Hadoop架构对典型聚类算法进行了设计与实现，实验证明基于分布式计算的聚类分析算法相对于单机处理模式有很好的效率以及扩展性。

本地馆藏 |

1、借阅数量：每证可借书6册，期刊2册，团体读者证可借书刊300册。 2、借阅时间：个人借期为30天，每本书可续借1次，借期为30天；团体借期为90天。 3、归还地点：3楼服务台、自助借还设备、还书箱、各分馆 4、馆际互借：读者未能在本馆获取所需文献资料，可至参考咨询阅览室服务台填写《南通市图书馆馆际互借读者申请表》，根据馆际互借协议，我馆将为读者向其他馆代借文献。馆际互借过程中所产生的费用（资料复印、邮寄费等），由读者个人承担。 5、服务电话续借：59003605 59003606 咨询：81100100 59003600

电子资源

同方学位论文库

目录详情 | 试阅读 |

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

欢迎您,

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

大规模数据挖掘聚类算法的研究与实现

读者评论与其他读者分享你的观点

请选择收藏分类：

欢迎您,

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

看过本文的还看了

相关文献

该作者的其他文献

大规模数据挖掘聚类算法的研究与实现

读者评论 与其他读者分享你的观点

请选择收藏分类： 新增自定义分类 确定 取消

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

读者评论与其他读者分享你的观点

请选择收藏分类：