咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于粒计算的子空间多聚类模型研究与实现 收藏
基于粒计算的子空间多聚类模型研究与实现

基于粒计算的子空间多聚类模型研究与实现

作     者:黄利利 

作者单位:大连理工大学 

学位级别:硕士

导师姓名:孟军

授予年度:2012年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 

主      题:多聚类 粒计算 子空间聚类 聚类代价 

摘      要:随着信息技术的广泛应用以及信息量的增长,数据的复杂度日益增加,聚类算法的应用需求也更加复杂了。例如,基因表达序列的功能分析,使用传感器的监督网络中传感器的聚类,具有综合性质的文本聚类,多特征客户的聚类分析等。传统的聚类算法已经不能够很好地适应这样的应用需求,多聚类正是基于上述背景提出的。多聚类从不同的视角对数据库做出解释,可以得到多个有效的数据分组方案,同时每个分组方案都有其独立存在的意义和价值,换句话说,每个数据分组都是非冗余的聚类方案,用户可以根据应用需求从中选取合适的分组方案。 本文构建了三个不同的子空间多聚类模型,在前两个模型中分别采取了不同的策略来达到多聚类目的。第一个模型采用ENCLUS (Entropy-based Subspace Clustering)算法来选取显著子空间,然后分别在这些显著子空间中进行K-Means聚类,该模型主要在于聚类代价和簇集相似两个概念的提出以及通过这两个概念的运用对所得的多个簇集进行再次化简整合。通过选择大小不同的簇集相似度阈值,可以影响最终多聚类结果的粗糙度,间接地对结果集中簇集的数目多少进行控制。第二个模型则是基于单维聚类的多聚类解决方案,在每个单一的维度空间进行K-Means聚类,对数据对象在各个维度上进行标记,通过标记对象之间的两两比对可以得出一种基于相似度的多聚类解决方案。第三个模型则结合了粒计算的思想,将多聚类运算归结为建立扩展信息表以及寻找有趣信息两个步骤,从另一个理论层面上对本文的研究成果进行了总结和扩展。 本文在模拟客户档案数据集上进行了相关实验,其结果表明,使用模型一可以很好地对多聚类结果进行简化,簇集相似度阈值为2时,简化率达65%,在保证结果信息量的同时,极大地增强了其可理解性,能够为用户提供多个无冗余的可选的分组方案;模型二也获得了较好的聚类效果,具体表现在使用该模型可以发现一些之前多聚类算法难于发现的特殊簇集,也是多聚类模型与应用需求更多结合的初步尝试。与此同时,基于粒计算的子空间多聚类模型,作为另一个理论层面上的分析和研究,为接下来的工作提供了更好的铺垫和指导。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分