基于矩阵分解的本地差分隐私频繁项集挖掘方法研究与实现
作者单位:东南大学
学位级别:硕士
导师姓名:董恺;汪利鹏
授予年度:2022年
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)]
摘 要:频繁项集挖掘是常被使用在数据集中挖掘数据关联的经典技术,近年来如何在其中保护数据隐私逐渐成为一个热点研究问题。差分隐私技术作为行业内的一种标准隐私保护方法,依据严格的数学定义,保证攻击者无法断定目标用户的准确信息。目前,基于中心化差分隐私的频繁项集挖掘方法已经获得了广泛的研究。针对不存在可信第三方信息收集者的场景,虽然也有研究者提出了在用户端进行数据干扰,服务器进行聚合统计的本地差分隐私技术,但是这些技术并不适用于去中心化的频繁项集挖掘场景。其根本原因在于维度爆炸导致隐私与挖掘准确性难以权衡。用户端在对多个项目进行本地差分隐私保护时,会把项目之间的关联看作新的维度进行保护,随着项目数量的增多,需要保护的内容数量指数型增长,数据干扰引入的误差也随之增加,最终影响服务器聚合估计结果的准确性。本文研究了一种满足本地差分隐私的高置信度频繁项集挖掘方法。(1)本文使用矩阵形式来表示用户所拥有的项目集合,客户端通过计算会得到一个非对角矩阵,如何对该矩阵进行本地差分隐私保护,使矩阵拟合的过程足够快速准确是最大的挑战。根据本地差分隐私性质,如果对每一个元素都进行隐私保护,隐私预算将被均分给每个元素,增加通信次数的同时引入更大的误差,影响服务器对用户项目矩阵的估计。因为奇异值分解结果中最左上角的奇异值包含着矩阵最多的信息,所以本文仅选择对矩阵最左上角元素进行数据干扰。仅对一个元素进行差分隐私保护,这一做法不仅可以大大降低用户端的通信次数,同时还能充分利用隐私预算使得干扰的误差更小,服务器也能够获得更准确的估计结果。(2)在上述理论研究的基础上,论文进行了大量的参数配置实验研究,并设计开发了一套满足本地差分隐私的频繁项集挖掘工具集,并在家庭物联网场景下进行了应用示范。论文针对本地差分隐私定义下的频繁项集挖掘问题,利用矩阵分解的方法进行了深入研究。与现有的研究工作方法相比,论文提出的奇异值分解方法能够在提供严格隐私保护的同时更好地实现挖掘精度与通信次数的权衡,频繁项集挖掘结果更加适用于后续的关联规则挖掘,这对本地差分隐私关联规则挖掘研究具有重要意义。