面向大数据流的分布式索引构建
Distributed Index Construction for Big Data Streams作者机构:浙江工业大学计算机学院浙江杭州310023 浙江工业大学之江学院浙江绍兴312030
出 版 物:《软件学报》 (Journal of Software)
年 卷 期:2021年第32卷第11期
页 面:3576-3595页
核心收录:
学科分类:0711[理学-系统科学] 08[工学] 0903[农学-农业资源与环境] 0901[农学-作物学] 0835[工学-软件工程] 0701[理学-数学] 081202[工学-计算机软件与理论] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排序的批量构建技术,进一步对时间窗口分片,将数据流接收、分片数据排序以及B+树构建并行化,提高了构建性能.上层B+树索引基于各时间窗口构建,结合时间窗口时间戳的递增性和无限性,提出了避免节点分裂的构建方法,减少了B+树分裂移动开销,提高了空间利用率和更新效率.WB-Index架构中,将流数据和索引分离,同时利用内存缓存尽可能多的双层B+索引和热点数据来提高查询性能.理论和实验结果表明,该分布式索引架构能够支持高效的实时数据流写入以及流数据查询,能够很好地应用于具有时间属性的数据流场景.