大数据环境下基于差分隐私的数据发布及算法评估系统
作者单位:内蒙古大学
学位级别:硕士
导师姓名:马学彬
授予年度:2019年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 0839[工学-网络空间安全] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:Spark框架 Django 差分隐私保护 数据发布 算法评估
摘 要:随着信息技术的普及和发展,各行各业积累了大量而丰富的数据,这些数据中通常包含了许多个人隐私信息,直接对其进行发布或分析都可能造成隐私的泄露。差分隐私作为一种较新的隐私保护模型,能够防止攻击者拥有任意背景知识下的攻击,有效解决数据发布和分析中的隐私威胁问题。本文设计并实现了大数据环境下基于差分隐私的数据发布及算法评估系统,用于解决大数据背景下数据发布与隐私保护之间的问题,研究内容如下:首先针对大规模数值型数据的处理问题,选用了Spark分布式计算框架快速高效地处理数据,根据数据维度及发布需求的不同,设计了两种数据处理算法预处理原始数据,用于得到发布数据的原始计数值。其次为避免敏感数据信息在发布过程中遭到泄露,本系统采用非交互式保护框架,引入四种基于不同发布策略的差分隐私数据发布算法用于进行数据发布,并将发布结果通过可视化的形式展示出来。最后根据度量差分隐私算法性能的标准,从算法误差和算法性能方面来实现对隐私保护算法的评估。综上所述,本系统能满足大数据环境下大规模数值型数据的数据处理和数据发布的需求,为数据分析师和数据所有者提供一个基于差分隐私的数据发布与算法评估的可视化平台,以帮助其选择合适的差分隐私算法来提高数据的可用性并保证数据中的敏感信息不会被泄露。