多密度自适应确定DBSCAN算法参数的算法研究
Research on Method of Multi-density Self-Adaptive Determination of DBSCAN Algorithm Parameters作者机构:四川大学计算机学院成都610065 四川省大数据分析与融合应用技术工程实验室成都610065
出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)
年 卷 期:2022年第58卷第2期
页 面:78-85页
学科分类:08[工学] 0812[工学-计算机科学与技术(可授工学、理学学位)] 081202[工学-计算机软件与理论]
基 金:国家重点研发计划项目(2020YFB1707900)。
摘 要:DBSCAN算法的Eps和MinPts参数需要人为设定,取值不当会导致聚类结果准确度不高,且在密度分布差异大的数据集上,由于参数的全局性,错误地应用于不同密度的簇,导致不能正确地发现簇。针对以上问题,提出一种多密度自适应参数确定算法,利用经过去噪衰减后的数据集的自身分布特性生成候选Eps和MinPts参数列表,并在簇数趋于稳定的区间内根据去噪级别选取对应的Eps和MinPts作为初始密度阈值。对在该密度阈值条件下聚类产生的噪声数据使用同样的方法生成候选参数列表,选取最优参数,得到新密度阈值,循环该步骤直到噪声数据的数量或密度阈值低于一定程度为止。将不同密度阈值下的聚类结果进行合并。实验结果表明,该算法能够自适应地选取合适的多密度阈值,并在密度分布差异大的数据集上有很好的聚类效果。