咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向大模型的高性能可扩展元数据设计ScaleFS 收藏

面向大模型的高性能可扩展元数据设计ScaleFS

作     者:尚碧筠 韩银俊 肖蓉 陈正华 屠要峰 董振江 

作者机构:南京邮电大学计算机学院 中兴通讯股份有限公司 

出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)

年 卷 期:2025年

核心收录:

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家重点研发计划项目(2021YFB3101101) 

主  题:大语言模型 大模型训练 存储系统 元数据管理 可扩展性 

摘      要:近年来,以ChatGPT为代表的大语言模型(large language model,LLM)技术发展迅速.随着模型参数规模的持续增长,构建和应用大模型对数据存储规模和存储访问效率提出了更高要求,这对传统存储系统带来了严峻挑战.首先分析了大模型在数据准备、模型训练和推理阶段的存储访问特征,深入探讨了传统存储系统在大模型场景下面临的主要问题和瓶颈.针对这些挑战,提出并实现了一种高性能、可扩展的分布式元数据设计ScaleFS.通过目录树元数据与属性元数据解耦的架构设计、并结合深度与广度均衡的目录树分层分区策略设计,ScaleFS实现了高效的路径解析、负载均衡和系统扩展能力,能够高效管理千亿级文件.此外,ScaleFS设计了细粒度元数据结构,优化了元数据访问模式,并构建了面向文件语义优化的元数据键值存储底座,显著提升了元数据访问效率并减少了磁盘I/O操作.实验结果表明,ScaleFS的每秒操作次数(operations per second,OPS)是HDFS的1.04?7.12倍,而延迟仅为HDFS的12.67%?99.55%.在千亿文件规模下,ScaleFS的大部分操作性能优于HDFS在十亿文件规模下的表现,展现出更高的扩展性和访问效率,能够更好地满足大模型场景对千亿级文件存储及高效访问的需求.

读者评论 与其他读者分享你的观点