Spark框架下保护数据差分隐私的遗传聚类算法
作者机构:海军通信总站二大队北京100000
出 版 物:《电脑知识与技术》 (Computer Knowledge and Technology)
年 卷 期:2019年第15卷第2期
页 面:198-200页
学科分类:08[工学] 0839[工学-网络空间安全] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:数据分析 k-means聚类 Spark框架 差分隐私 遗传算法
摘 要:针对分布式计算框架下海量数据聚类分析过程中的数据隐私泄露问题,提出了一种Spark下支持差分隐私保护的遗传k-means聚类算法。首先利用遗传算法实现对k-means聚类方案的全局寻优,提高算法的准确率;并采用种群迁移策略将遗传k-means算法部署于Spark框架中,实现基于内存读写的分布式聚类;然后利用差分隐私保护的Laplace Spark每轮迭代的mapvalues算子中,对各聚簇中记录数量num和聚簇中各记录之和sum上添加随机噪声。根据差分隐私保护的性质,通过理论分析证明了算法达到ε-差分隐私保护要求。最后实验分析表明了算法在Spark框架下的时效性高于MapReduce框架,其运行时间主要受迭代次数的影响,并且得出了使算法隐私性和准确性达到平衡的最优隐私保护预算取值。