咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >异构平台下基于HDFS的数据动态分配策略研究 收藏
异构平台下基于HDFS的数据动态分配策略研究

异构平台下基于HDFS的数据动态分配策略研究

作     者:文士林 

作者单位:北方工业大学 

学位级别:硕士

导师姓名:马礼;傅颖勋

授予年度:2018年

学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:HDFS 异构设备 热度值 BP神经网络 数据分配策略 

摘      要:随着信息化社会的快速发展,互联网中的数据量急速增长。由于传统存储模式难以突破其存储限制,分布式存储系统便越来越受欢迎,其中HDFS(Hadoop Distributed File System)是目前应用比较广泛的一个分布式文件存储系统。随着先进存储设备的发展,具有高读写性能的SSD和普通磁盘等异构设备作为目前主流的存储介质,已被广泛应用于HDFS系统中。HDFS有效解决了大数据处理面临的海量数据存储问题,并通过提供不同的数据存储策略和相应的存储接口来对冷热度不同的数据进行存放,这样开发人员就可以利用这些接口实现对数据的分类存储。然而,如何精确地对HDFS系统中的冷数据和热数据进行分配成为当前最为关键的问题。经过研究与分析发现,在对HDFS系统中数据进行分配时,现阶段通常采用的分配算法是首先为所有数据统一分配存储策略,然后根据数据的访问频率去动态调整其存储策略,从而实现对冷热数据的分配。但是采用传统算法对HDFS系统中的数据进行分配时,存在以卜问题:一方面,一些冷数据可能被存储在SSD上,导致系统中SSD的命中率不高,无法充分发挥SSD作用,造成SSD硬件资源的浪费,影响HDFS的性能;另一方面,一些热数据可能被存储在普通磁盘上,导致这些数据的读写效率低,降低了系统的吞吐量和存取效率,也会影响HDFS的性能。针对传统分配算法存在的问题,本文基于HDFS在数据(文件级)分配策略方面进行研究,完成的主要工作如下:(1)通过热度值来反映文件的访问热度,提出了一种基于Trace分析预设文件初始热度值的方法。其主要思想是:基于其他HDFS应用程序的大量Trace或当前HDFS应用程序的历史记录进行分析,综合考虑文件类型、大小和上传用户等影响因素,构建模型来计算不同类型文件的热度值。这样,当每个新文件第一次上传时,根据其类型,为其预设一个初始热度值,实现对文件热度的初始分配。(2)传统方法中基于访问频率的动态分配策略是利用过去一段时间的文件访问次数来预测文件未来的访问频率,而忽略了文件类型和大小等一些关键因素对文件未来访问频率影响的事实。为此,提出了一种利用BP神经网络调整文件热度值的方法。当文件被访问时,综合考虑文件类型、大小和访问次数等影响因素,构建模型来计算文件的实时热度值,并利用BP进行调整。然后根据调整后的热度值,预测出经常访问的文件和不常访问的文件,实现对文件热度的实时分配。(3)在文件热度分配以后,利用HDFS提供的六种存储策略和相应的存储接口,根据文件热度,将文件存储到具有不同读写性能的异构设备中。(4)基于HDFS,用本文的数据分配策略对比传统的数据分配算法,进行大量仿真和实验,实验证明本文的数据分配策略能较好地提升HDFS性能。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分