基于贝叶斯网络的差分隐私高维数据发布技术研究
Research on Differential Privacy High Dimensional Data Publishing Technology Based on Bayesian Networks作者机构:石家庄铁道大学信息科学与技术学院河北石家庄050043 河北省电磁环境效应与信息处理重点实验室河北石家庄050043 北京全路通信信号研究设计院集团有限公司北京100070
出 版 物:《计算机工程》 (Computer Engineering)
年 卷 期:2024年第50卷第5期
页 面:167-181页
学科分类:08[工学] 0835[工学-软件工程] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:数据发布 贝叶斯网络 差分隐私 隐私保护 相关矩阵 平均互信息
摘 要:在实现隐私保护的同时提高数据可用性是高维结构化数据发布研究中的挑战性问题,经典算法Priv Bayes针对该问题提供了一种解决方案。为进一步减少计算开销、提高数据可用性,提出基于贝叶斯网络的差分隐私数据发布算法ELPriv Bayes。分析贝叶斯网络结构学习阶段的理论计算开销,构建存储属性之间互信息的相关矩阵,避免结构学习算法迭代过程中互信息的冗余计算,降低了时间复杂度。基于平均互信息优化了节点进入贝叶斯网络的顺序,提高结构学习迭代过程中指数机制贡献的互信息期望值,进而提高生成数据集与原始数据集的统计近似度,并实证分析网络结构质量对首节点选择的低敏感性。在4个典型数据集上的实验结果表明,与经典算法Priv Bayes及其改进方案相比较,结构学习阶段的计算开销降低了97%~99%,基于指数机制捕获的互信息提高了14%~67%,生成数据集与原始数据集的平均变差距离降低了32%~40%,构建的支持向量机(SVM)分类器的准确率提高了4%~5%,并且当ε≤0.8时,采用ELPriv Bayes算法生成数据的可用性提升更为显著。