基于阈值自适应调整的重复数据删除方案
Deduplication Based on Adaptive Threshold Adjustment Scheme作者机构:青岛大学计算机科学技术学院
出 版 物:《青岛大学学报(自然科学版)》 (Journal of Qingdao University(Natural Science Edition))
年 卷 期:2019年第32卷第4期
页 面:36-39,49页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金(批准号:61303197,61702294)资助 山东省自然科学基金(批准号:ZR2019MF058)资助
摘 要:针对重复数据删除过程中具有相似属性的用户上传相同数据可能导致的内部数据泄露问题,提出了一种基于阈值自适应调整的重复数据删除方案。该方案采用属性划分的方式,对用户属性的类型进行划分,并对每个类型属性给出了具体的属性距离计算方法,通过对比上传用户属性的相似度,确定用户类别并据此对上传数据的计数方式进行自适应调整。始终确保集团用户的加入不会改变上传数据的当前流行度状态,保证了重复数据删除的安全性和数据的保密性。研究结果表明,基于阈值自适应的重复数据删除方案分类准确率较高,时间开销不大,具有良好的可扩展性和实用性。