面向地学应用的不确定数据聚类算法比较研究
A Comparative Study of Uncertain Data Clustering Algorithms for Geoscience Applications作者机构:中南大学地理信息系湖南长沙410083
出 版 物:《地理与地理信息科学》 (Geography and Geo-Information Science)
年 卷 期:2015年第31卷第6期
页 面:8-14页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(41471385) 数字制图与国土信息应用工程国家测绘地理信息局重点实验室开放研究基金项目(GCWD201401)
摘 要:不确定数据聚类分析已成为空间数据挖掘领域的一个研究热点。近年来,在传统划分与基于密度的聚类算法基础上,一系列不确定数据聚类算法相继被提出。虽然这些算法在地学领域的应用已经得到了广泛关注,然而其实际应用的有效性尚缺乏客观的评价。为此,选取当前具有代表性的6种算法进行实验对比分析。首先,设计40组包含预设模式的模拟数据进行测试。进而,采用亚洲气候数据集对6种方法识别气候区的能力进行比较分析,以Kppen-Geiger气候分类结果为基准对各种方法的实际应用效果进行评价。借助准确率和召回率对各种方法的聚类质量定量度量后,发现:1)对于同类型聚类算法,采用相对熵距离的算法聚类质量总体优于采用期望距离和模糊距离函数的算法;2)采用相对熵距离的划分算法聚类质量优于基于密度的算法,其中采用相对熵距离的KMedoids-KL算法的聚类质量最好。