基于EHDFS的海量小文件存储与检索方法
Storage and retrieval method of massive small files based on EHDFS作者机构:西北农林科技大学信息工程学院陕西杨凌712100
出 版 物:《计算机工程与设计》 (Computer Engineering and Design)
年 卷 期:2022年第43卷第2期
页 面:376-383页
学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:陕西省重点项目研发计划基金项目(2019 NY-164)。
主 题:海量小文件 EHDFS架构 最优化合并存储模型 MapFile映射关系结构 文件索引模型
摘 要:为有效解决HDFS面对多类型的海量小文件存在存储效率与检索速率低下的问题,构建一种基于EHDFS架构的存取方案。存储阶段,引入最优化策略,建立新的合并存储模型,使小文件最大化填满且均匀分布于Block,提高DataNode空间利用,降低NameNode内存开销。检索阶段,改进MapFile映射关系结构、索引存储位置与组成元素以建立新的文件索引模型,避免跨跃式文件搜索,实现小文件的集中检索。实验结果表明,对比多种大数据存储模型,在不同数据量的分组压力测试下,该方案有效提高了HDFS的存取效率。