数据匿名化对群体间差异的统计表征的影响
Implications of Data Anonymization on the Statistical Evidence of Disparity作者机构:美国美利坚大学科戈德商学院 上海社会科学院信息研究所
出 版 物:《国外社会科学前沿》 (Studies on Foreign Social Sciences)
年 卷 期:2021年第10期
页 面:60-75页
学科分类:08[工学] 0839[工学-网络空间安全] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:近年来,学界和业界对以数据匿名化为代表的隐私保护技术的研发工作剧增。然而,围绕隐私保护如何影响针对弱势亚人群的数据洞察的研究却非常有限。本文尝试探索数据匿名化可以在多大程度上掩盖群体差异的统计表征。我们首先描述了数据匿名化的两种常见机制(数据移除与噪声插入)和群体差异的两类常见统计表征(隔离差异与变差差异),构建了相关的概念基础和数学表达;在此基础上,证明数据匿名化会掩盖群体差异,并进一步发现采用不同统计表征方式对差异进行操作化时,不同的数据匿名化机制将产生不同的影响。经验证据也验证了我们的理论推断。我们的研究发现具备商业价值和政策意义,强调企业和政策制定者需要在保护隐私和识别、纠正群体差异之间取得平衡。