咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >云存储数据去重技术研究 收藏
云存储数据去重技术研究

云存储数据去重技术研究

作     者:张鑫宇 

作者单位:杭州电子科技大学 

学位级别:硕士

导师姓名:唐向宏;张品

授予年度:2023年

学科分类:08[工学] 0804[工学-仪器科学与技术] 080402[工学-测试计量技术及仪器] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:云存储 哈希值 去重 滑动窗口 固定分块 

摘      要:随着信息技术在社会各行各业当中不同程度的应用,信息数据也呈现出一种指数级增长态势,这给数据的存储以及备份造成一定的影响。云存储数据去重作为一种冗余数据消除技术获得了业内学者的广泛认可及关注。利用云存储数据去重技术,不但可以减少本地空间的存储负担和信息管理费用,而且能够提升网络带宽的使用率。在云存储数据去重技术当中,数据分块技术的重复数据检测率及查全率直接影响整体去重效果。本文提出两种优化分块检测算法以期为云存储数据去重技术的发展提供参考。针对滑动分块算法无法处理改动文件中匹配失败数据块的局限,本文基于客户端和服务端提出一种优化滑动分块算法。在客户端,优化滑动分块算法保留了滑动分块算法的核心步骤从而对待检测数据进行初次检测,将滑动分块算法两轮强弱哈希的校验过程简化成一次强哈希运算,增设预处理机制对匹配失败数据块进行处理,并将滑动窗口的截止位置相对于滑动分块算法进行延后,以便于滑动窗口进一步检测重复数据;在服务端,优化滑动分块算法提出了去重弥补机制,其对于客户端预处理结果会通过子窗口进行定长分块从而实现二次重复数据检测。从测试结果来看,相比于目前主流的检测算法,优化滑动分块算法的局部修改文件查全率和整体修改文件查全率都存在较为明显的提升。针对固定分块算法因高敏感性导致错漏冗余数据的问题,本文基于客户端和服务端提出了一种优化固定分块算法。在客户端,优化固定分块算法保留了固定分块算法的基本步骤,对于文件可以按照固定长度进行分块并计算相应哈希值,再根据得到的哈希值通过散列表进行初次筛选从而获取匹配失败的数据块。通过引入服务端的计算资源和存储资源,优化固定分块算法中提出了重复数据追踪机制。重复数据追踪机制会通过回溯窗口对客户端匹配失败的定长数据块进行逐字节的边界鉴定,直至回溯窗口与该定长数据块完全不重叠为止。从测试结果来看,相比于目前主流的检测算法,在本地端不增加额外开销的情况下,优化固定分块算法将固定分块算法的高重复数据检测率进一步提升,同时提高其查全率从而降低对于文件修改操作的敏感性。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分