咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >若干改进的密度峰值聚类算法及其应用研究 收藏
若干改进的密度峰值聚类算法及其应用研究

若干改进的密度峰值聚类算法及其应用研究

作     者:张嘉欢 

作者单位:吉林财经大学 

学位级别:硕士

导师姓名:王丽敏

授予年度:2021年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:密度峰值聚类 局部密度 截断距离 高维效应 拉普拉斯分布理论 蝙蝠优化算法 距离优化策略 

摘      要:数据作为新时代各行各业的隐形资产,在助推行业转型升级与业务拓展过程中起到了举足轻重的作用。在当前大的时代背景下,数字化、数智化以及智能化无疑成为各领域实现自我突破的发展契机,而数据则是驱动发展的核心动能。为深度发掘数据资源中的隐藏红利,聚类则成为一个重要的数据分析方法,与此同时,密度峰值聚类算法(Density Peak Clustering Algorithm,DPC)凭借其自身独特的优势被国内外专家学者进行不同角度、不同视域下的研究与思考。然而,原始密度峰值聚类仍存在诸多不足掣肘聚类准确度与聚类性能的提升,首先,截断距离依赖于人为设置,其次,现有局部密度计算方式不够合理,第三,以简单几何距离为主的数据样本距离测度方法存在弊端。基于此,本文在原始密度峰值聚类中融合多种理论思想,致力于实现聚类性能与聚类准确度的双重提升。本文主要研究内容如下:(1)为消减既有局部密度计算方式的不足对结果产生的影响,本文受到相关学者的研究启发,在原始密度峰值聚类中引入拉普拉斯分布理论,提出了基于拉普拉斯分布的密度峰值聚类算法(Density Peak Clustering Algorithm Based on Laplace Distribution,LPDPC)。该算法利用拉普拉斯概率密度函数改进原始的局部密度度量方式,综合考虑了数据点在样本空间中的全局分布与局部分布,进而能够较为合理地解决原始密度峰值聚类算法中密度排序不合理以及数据点分配不恰当的问题。(2)针对如何自适应确定合理的截断距离取值本文提出了基于蝙蝠优化的密度峰值聚类算法(Density Peak Clustering Algorithm Based on Bat Optimization,BA-DPC),该算法在密度峰值聚类中引入蝙蝠优化理论,通过蝙蝠优化算法自适应扫描参数空间,利用脉冲频率、响度和飞行速度的变化来寻找解空间中最优取值,继而实现算法的聚类分析过程。实验结果表明,基于蝙蝠优化的密度峰值聚类算法聚类结果与实验数据集的真实类数比较接近,提升了原算法的聚类性能。(3)为消减维度效应对密度峰值聚类算法所产生的影响,本文优化了数据样本点间的距离测度方式,提出了一种优化距离策略的密度峰值聚类算法(Density Peak Clustering Algorithm for Optimization Distance Strategy,ODS-DPC)。ODS-DPC受高维数据相似性度量的启发,融合多重理论构建了一种可用于不同维度数据点的自适应距离度量策略,仿真实验结果证明,改进的密度峰值聚类算法降低了高维数据的维度影响,实现了较优的聚类分析过程。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分