咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向大数据流的分布式索引构建 收藏

面向大数据流的分布式索引构建

Distributed Index Construction for Big Data Streams

作     者:杨良怀 卢晨曦 范玉雷 朱镇洋 潘建 YANG Liang-Huai;LU Chen-Xi;FAN Yu-Lei;ZHU Zhen-Yang;PAN Jian

作者机构:浙江工业大学计算机学院浙江杭州310023 浙江工业大学之江学院浙江绍兴312030 

出 版 物:《软件学报》 (Journal of Software)

年 卷 期:2021年第32卷第11期

页      面:3576-3595页

核心收录:

学科分类:0711[理学-系统科学] 08[工学] 0903[农学-农业资源与环境] 0901[农学-作物学] 0835[工学-软件工程] 0701[理学-数学] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家重点研发计划(2020YFB1707700) 

主  题:大数据 数据流 分布式索引 B+树 

摘      要:大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排序的批量构建技术,进一步对时间窗口分片,将数据流接收、分片数据排序以及B+树构建并行化,提高了构建性能.上层B+树索引基于各时间窗口构建,结合时间窗口时间戳的递增性和无限性,提出了避免节点分裂的构建方法,减少了B+树分裂移动开销,提高了空间利用率和更新效率.WB-Index架构中,将流数据和索引分离,同时利用内存缓存尽可能多的双层B+索引和热点数据来提高查询性能.理论和实验结果表明,该分布式索引架构能够支持高效的实时数据流写入以及流数据查询,能够很好地应用于具有时间属性的数据流场景.

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分