基于Hadoop的小文件存取优化策略研究
作者单位:中南大学
学位级别:硕士
导师姓名:陈志刚
授予年度:2022年
学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:分布式存储系统 HDFS Hadoop 文件存储优化 文件读取优化 小文件合并
摘 要:Hadoop分布式存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,能够有效提高集群的可靠性、可用性和存取效率,还易于扩展。HDFS是Hadoop最核心的分布式文件系统。但HDFS以主节点为处理中心的设计会当遇到海量小文件涌入时,将成为集群的瓶颈,容易导致中心节点出现存取效率低、内存瓶颈等问题。本论文主要针对基于Hadoop的分布式存储系统小文件存取问题展开研究与技术改进,主要工作如下:(1)小文件存储性能优化:本文提出了基于小文件时间连续性的文件关联性分析策略,在小文件合并前进行文件预处理。经过预处理后的小文件通过本文提出的基于最差匹配策略的小文件合并算法进一步合并整合成堆,从而显著降低系统中小文件的数量。经过实验对比表明算法能够有效缓解Name Node的内存负载,提升文件的存储效率。(2)小文件读取性能优化:与已有研究成果相比,在文件合并过程中通过索引模块为合并后的堆文件创建索引,采用基于Trie树的索引查找机制实现对小文件的快速查找定位。并且,本文通过发掘文件的访问特性建立了文件热度模型,提出了基于文件热度的缓存替换策略CRSH,利用该策略对缓存空间中的文件进行动态更迭,提升缓存区的利用率。不仅优化了Name Node内存的使用,还提高了文件访问的效率。本文基于(1)(2)中提出的小文件存取优化策略,设计并实现了基于HDFS的扩展系统EHDFS,系统依托于硕士期间参与的科研项目。该系统不仅能够有效缓解Name Node内存压力,提升文件存储和上传速率,为解决海量小文件的存储与读取问题提供了有力的支撑,并且还为用户提供了便捷的文件管理体验。能够解决现实应用场景下的问题,具有实际运用价值。图36幅,表10个,参考文献61篇